論文の概要: Lessons Learned from a Citizen Science Project for Natural Language
Processing
- arxiv url: http://arxiv.org/abs/2304.12836v1
- Date: Tue, 25 Apr 2023 14:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 20:35:46.892325
- Title: Lessons Learned from a Citizen Science Project for Natural Language
Processing
- Title(参考訳): 自然言語処理のための市民科学プロジェクトから学んだこと
- Authors: Jan-Christoph Klie, Ji-Ung Lee, Kevin Stowe, G\"ozde G\"ul \c{S}ahin,
Nafise Sadat Moosavi, Luke Bates, Dominic Petrak, Richard Eckart de Castilho,
Iryna Gurevych
- Abstract要約: 市民科学はクラウドソーシングの代替であり、NLPの文脈では比較的研究されていない。
我々は、既存のクラウドソースデータセットの一部を注釈付けすることで、NLPの市民科学における様々なボランティアグループへの参加について探索的研究を行う。
この結果から,高品質なアノテーションが得られ,モチベーションの高いボランティアを惹きつけるだけでなく,スケーラビリティや時間的関与,法的・倫理的問題といった要因も考慮する必要があることが示唆された。
- 参考スコア(独自算出の注目度): 53.48988266271858
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many Natural Language Processing (NLP) systems use annotated corpora for
training and evaluation. However, labeled data is often costly to obtain and
scaling annotation projects is difficult, which is why annotation tasks are
often outsourced to paid crowdworkers. Citizen Science is an alternative to
crowdsourcing that is relatively unexplored in the context of NLP. To
investigate whether and how well Citizen Science can be applied in this
setting, we conduct an exploratory study into engaging different groups of
volunteers in Citizen Science for NLP by re-annotating parts of a pre-existing
crowdsourced dataset. Our results show that this can yield high-quality
annotations and attract motivated volunteers, but also requires considering
factors such as scalability, participation over time, and legal and ethical
issues. We summarize lessons learned in the form of guidelines and provide our
code and data to aid future work on Citizen Science.
- Abstract(参考訳): 多くの自然言語処理(nlp)システムは、訓練と評価に注釈付きコーパスを使用する。
しかし、ラベル付きデータはしばしば入手するのにコストがかかり、アノテーションプロジェクトのスケーリングは難しいため、アノテーションタスクは有料のクラウドワーカーにアウトソースされることが多い。
市民科学はクラウドソーシングの代替であり、NLPの文脈では比較的研究されていない。
この環境で市民科学がどの程度有効かを調べるため、既存のクラウドソースデータセットの一部を注釈付けすることで、NLPの市民科学における様々なボランティアグループへの参加を探索研究する。
この結果から,高品質なアノテーションが得られ,モチベーションの高いボランティアを惹きつけるだけでなく,スケーラビリティや時間的関与,法的・倫理的問題といった要因も考慮する必要があることがわかった。
ガイドラインの形で学んだ教訓を要約し、市民科学の今後の取り組みを支援するコードとデータを提供します。
関連論文リスト
- Fairness Certification for Natural Language Processing and Large
Language Models [0.0]
我々はNLPアプローチの公平性認定に向けた定性的な研究アプローチに従う。
我々は、NLPの6つのフェアネス基準を体系的に考案し、さらに18のサブカテゴリに洗練することができる。
論文 参考訳(メタデータ) (2024-01-02T16:09:36Z) - Teaching at the Intersection of Social Justice, Ethics, and the ASA
Ethical Guidelines for Statistical Practice [0.0]
ケーススタディは一般的に「倫理」を教えるために使用されるが、コースの内容が公式や証明に集中している場合、ケースアナリシスと彼らが必要とする知識、スキル、能力は邪魔になることがある。
数学、統計学、データサイエンス、コンピューティングの倫理的な実践は、学習者のキャリア計画に関係なく重要なトピックである。
5つのツールを使って、社会正義をコースに統合し、同時に「倫理」の統合を呼びかけることができる。
論文 参考訳(メタデータ) (2023-09-30T15:46:09Z) - Situated Natural Language Explanations [56.11758101279844]
本研究では,NLEの生成と評価を行うフレームワークを提案する。
生成側では、NLEを状況に適応させる単純なプロンプトエンジニアリング手法を提案する。
評価面では,語彙,意味,実践的カテゴリーにおける自動評価スコアを設定した。
論文 参考訳(メタデータ) (2023-08-27T14:14:28Z) - Beyond Good Intentions: Reporting the Research Landscape of NLP for
Social Good [115.1507728564964]
NLP4SG Papersは3つのタスクを関連づけた科学データセットである。
これらのタスクはNLP4SGの論文を特定し、NLP4SGのランドスケープを特徴付けるのに役立つ。
現状のNLPモデルを用いてこれらのタスクに対処し、ACLアンソロジー全体においてそれらを使用する。
論文 参考訳(メタデータ) (2023-05-09T14:16:25Z) - Collaborating Heterogeneous Natural Language Processing Tasks via
Federated Learning [55.99444047920231]
提案するATCフレームワークは, 各種ベースライン手法と比較して, 大幅な改善を実現している。
自然言語理解(NLU)タスクと自然言語生成(NLG)タスクを対象とする,広く使用されている6つのデータセットについて,広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-12T09:27:50Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z) - Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for
Underdocumented Languages [6.8708103492634836]
何百もの未保存言語が、言語ドキュメントの取り組みから、インターリニアグロステキスト(IGT)という形でデータソースを提供している。
ターゲット言語の専門知識が利用可能であれば、IGTデータをうまく活用できると仮定する。
本研究は,Tsimchianic Language Gitksanのための形態的再帰システムの構築に関する事例研究を通じて,各ステップについて解説する。
論文 参考訳(メタデータ) (2022-03-17T22:02:25Z) - Low-Resource Adaptation of Neural NLP Models [0.30458514384586405]
本論文は,情報抽出と自然言語理解における低リソースシナリオを扱う手法について考察する。
ニューラルNLPモデルを開発し,学習データを最小限にしたNLPタスクに関する多くの研究課題を探索する。
論文 参考訳(メタデータ) (2020-11-09T12:13:55Z) - Natural language processing for achieving sustainable development: the
case of neural labelling to enhance community profiling [2.6734009991058794]
本研究は,NLPによるプロジェクトの持続可能性向上に寄与する可能性を示す。
我々は、先進国と対照的に、顕著なデータギャップが存在する発展途上国におけるコミュニティプロファイリングの事例に焦点を当てる。
極端に多クラスなマルチラベル分類問題である自動PV分類の課題を提案する。
論文 参考訳(メタデータ) (2020-04-27T16:51:21Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。