論文の概要: Lessons Learned from a Citizen Science Project for Natural Language
Processing
- arxiv url: http://arxiv.org/abs/2304.12836v1
- Date: Tue, 25 Apr 2023 14:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 20:35:46.892325
- Title: Lessons Learned from a Citizen Science Project for Natural Language
Processing
- Title(参考訳): 自然言語処理のための市民科学プロジェクトから学んだこと
- Authors: Jan-Christoph Klie, Ji-Ung Lee, Kevin Stowe, G\"ozde G\"ul \c{S}ahin,
Nafise Sadat Moosavi, Luke Bates, Dominic Petrak, Richard Eckart de Castilho,
Iryna Gurevych
- Abstract要約: 市民科学はクラウドソーシングの代替であり、NLPの文脈では比較的研究されていない。
我々は、既存のクラウドソースデータセットの一部を注釈付けすることで、NLPの市民科学における様々なボランティアグループへの参加について探索的研究を行う。
この結果から,高品質なアノテーションが得られ,モチベーションの高いボランティアを惹きつけるだけでなく,スケーラビリティや時間的関与,法的・倫理的問題といった要因も考慮する必要があることが示唆された。
- 参考スコア(独自算出の注目度): 53.48988266271858
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many Natural Language Processing (NLP) systems use annotated corpora for
training and evaluation. However, labeled data is often costly to obtain and
scaling annotation projects is difficult, which is why annotation tasks are
often outsourced to paid crowdworkers. Citizen Science is an alternative to
crowdsourcing that is relatively unexplored in the context of NLP. To
investigate whether and how well Citizen Science can be applied in this
setting, we conduct an exploratory study into engaging different groups of
volunteers in Citizen Science for NLP by re-annotating parts of a pre-existing
crowdsourced dataset. Our results show that this can yield high-quality
annotations and attract motivated volunteers, but also requires considering
factors such as scalability, participation over time, and legal and ethical
issues. We summarize lessons learned in the form of guidelines and provide our
code and data to aid future work on Citizen Science.
- Abstract(参考訳): 多くの自然言語処理(nlp)システムは、訓練と評価に注釈付きコーパスを使用する。
しかし、ラベル付きデータはしばしば入手するのにコストがかかり、アノテーションプロジェクトのスケーリングは難しいため、アノテーションタスクは有料のクラウドワーカーにアウトソースされることが多い。
市民科学はクラウドソーシングの代替であり、NLPの文脈では比較的研究されていない。
この環境で市民科学がどの程度有効かを調べるため、既存のクラウドソースデータセットの一部を注釈付けすることで、NLPの市民科学における様々なボランティアグループへの参加を探索研究する。
この結果から,高品質なアノテーションが得られ,モチベーションの高いボランティアを惹きつけるだけでなく,スケーラビリティや時間的関与,法的・倫理的問題といった要因も考慮する必要があることがわかった。
ガイドラインの形で学んだ教訓を要約し、市民科学の今後の取り組みを支援するコードとデータを提供します。
関連論文リスト
- The Nature of NLP: Analyzing Contributions in NLP Papers [77.31665252336157]
我々は,NLP研究を構成するものについて,研究論文から定量的に検討する。
以上の結果から,NLPにおける機械学習の関与は,90年代前半から増加傾向にあることが明らかとなった。
2020年以降、言語と人々への関心が復活した。
論文 参考訳(メタデータ) (2024-09-29T01:29:28Z) - Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP [2.3499129784547663]
本研究は, 体系的かつ総合的な単言語NLPサーベイを作成する手法を導入することで, ギャップを埋めるものである。
構造化された検索プロトコルによって特徴づけられ、出版物を選定し、NLPタスクの分類によってそれらを整理することができる。
本手法の適用により,2012年から2022年にかけて,ギリシャNLPの体系的文献レビューを行った。
論文 参考訳(メタデータ) (2024-07-13T12:01:52Z) - What Can Natural Language Processing Do for Peer Review? [173.8912784451817]
現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。
ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。
筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
論文 参考訳(メタデータ) (2024-05-10T16:06:43Z) - Fairness Certification for Natural Language Processing and Large
Language Models [0.0]
我々はNLPアプローチの公平性認定に向けた定性的な研究アプローチに従う。
我々は、NLPの6つのフェアネス基準を体系的に考案し、さらに18のサブカテゴリに洗練することができる。
論文 参考訳(メタデータ) (2024-01-02T16:09:36Z) - Situated Natural Language Explanations [54.083715161895036]
自然言語の説明(NLE)は、人間に意思決定を説明する最もアクセスしやすいツールである。
既存のNLE研究の視点は、観客を考慮に入れない。
Situated NLEは視点を提供し、説明の生成と評価に関するさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-27T14:14:28Z) - Collaborating Heterogeneous Natural Language Processing Tasks via
Federated Learning [55.99444047920231]
提案するATCフレームワークは, 各種ベースライン手法と比較して, 大幅な改善を実現している。
自然言語理解(NLU)タスクと自然言語生成(NLG)タスクを対象とする,広く使用されている6つのデータセットについて,広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-12T09:27:50Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z) - Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for
Underdocumented Languages [6.8708103492634836]
何百もの未保存言語が、言語ドキュメントの取り組みから、インターリニアグロステキスト(IGT)という形でデータソースを提供している。
ターゲット言語の専門知識が利用可能であれば、IGTデータをうまく活用できると仮定する。
本研究は,Tsimchianic Language Gitksanのための形態的再帰システムの構築に関する事例研究を通じて,各ステップについて解説する。
論文 参考訳(メタデータ) (2022-03-17T22:02:25Z) - Natural language processing for achieving sustainable development: the
case of neural labelling to enhance community profiling [2.6734009991058794]
本研究は,NLPによるプロジェクトの持続可能性向上に寄与する可能性を示す。
我々は、先進国と対照的に、顕著なデータギャップが存在する発展途上国におけるコミュニティプロファイリングの事例に焦点を当てる。
極端に多クラスなマルチラベル分類問題である自動PV分類の課題を提案する。
論文 参考訳(メタデータ) (2020-04-27T16:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。