Fugu-MT 論文翻訳(概要): Lessons Learned from a Citizen Science Project for Natural Language Processing

論文の概要: Lessons Learned from a Citizen Science Project for Natural Language Processing

arxiv url: http://arxiv.org/abs/2304.12836v1
Date: Tue, 25 Apr 2023 14:08:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 20:35:46.892325
Title: Lessons Learned from a Citizen Science Project for Natural Language Processing
Title（参考訳）: 自然言語処理のための市民科学プロジェクトから学んだこと
Authors: Jan-Christoph Klie, Ji-Ung Lee, Kevin Stowe, G\"ozde G\"ul \c{S}ahin, Nafise Sadat Moosavi, Luke Bates, Dominic Petrak, Richard Eckart de Castilho, Iryna Gurevych
Abstract要約: 市民科学はクラウドソーシングの代替であり、NLPの文脈では比較的研究されていない。我々は、既存のクラウドソースデータセットの一部を注釈付けすることで、NLPの市民科学における様々なボランティアグループへの参加について探索的研究を行う。この結果から,高品質なアノテーションが得られ,モチベーションの高いボランティアを惹きつけるだけでなく,スケーラビリティや時間的関与,法的・倫理的問題といった要因も考慮する必要があることが示唆された。
参考スコア（独自算出の注目度）: 53.48988266271858
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Many Natural Language Processing (NLP) systems use annotated corpora for training and evaluation. However, labeled data is often costly to obtain and scaling annotation projects is difficult, which is why annotation tasks are often outsourced to paid crowdworkers. Citizen Science is an alternative to crowdsourcing that is relatively unexplored in the context of NLP. To investigate whether and how well Citizen Science can be applied in this setting, we conduct an exploratory study into engaging different groups of volunteers in Citizen Science for NLP by re-annotating parts of a pre-existing crowdsourced dataset. Our results show that this can yield high-quality annotations and attract motivated volunteers, but also requires considering factors such as scalability, participation over time, and legal and ethical issues. We summarize lessons learned in the form of guidelines and provide our code and data to aid future work on Citizen Science.
Abstract（参考訳）: 多くの自然言語処理(nlp)システムは、訓練と評価に注釈付きコーパスを使用する。しかし、ラベル付きデータはしばしば入手するのにコストがかかり、アノテーションプロジェクトのスケーリングは難しいため、アノテーションタスクは有料のクラウドワーカーにアウトソースされることが多い。市民科学はクラウドソーシングの代替であり、NLPの文脈では比較的研究されていない。この環境で市民科学がどの程度有効かを調べるため、既存のクラウドソースデータセットの一部を注釈付けすることで、NLPの市民科学における様々なボランティアグループへの参加を探索研究する。この結果から,高品質なアノテーションが得られ,モチベーションの高いボランティアを惹きつけるだけでなく,スケーラビリティや時間的関与,法的・倫理的問題といった要因も考慮する必要があることがわかった。ガイドラインの形で学んだ教訓を要約し、市民科学の今後の取り組みを支援するコードとデータを提供します。

関連論文リスト

The CitizenQuery Benchmark: A Novel Dataset and Evaluation Pipeline for Measuring LLM Performance in Citizen Query Tasks [8.50465147895087]
市民問合せ(ちちぜんきゅう)とは、その事情に関係のある政府の方針・指導・サービスについて、個人から質問される質問である。これは、ユーザのコンテキストに適合した情報を持つ市民クエリに応答する大規模言語モデルにとって、魅力的なユースケースである。市民クエリとレスポンスの2万組のベンチマークデータセットであるCitizenQuery-UKを紹介した。
論文参考訳（メタデータ） (2026-02-03T22:58:09Z)
Opportunities and Challenges of Natural Language Processing for Low-Resource Senegalese Languages in Social Science Research [0.6016863427924156]
本稿では,セネガル憲法で公式に認められた6つの国語(Wolof, Pulaar, Sereer, Joola, Mandingue, Soninke)の進歩と課題について概観する。言語的・社会技術的・インフラ的要素を合成し、それらのデジタル準備性を形作り、データ、ツール、ベンチマークのギャップを識別する。この論文は、セネガル語のための持続可能なコミュニティ中心のNLPエコシステムに向けたロードマップを概説することで締めくくっている。
論文参考訳（メタデータ） (2025-12-24T20:20:31Z)
Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce [27.918975040084387]
与えられた言語のデータは、トークンの集まり以上のものと見なすべきである。優れたデータ収集とラベル付けのプラクティスは、より人間中心で社会的に意識した技術を構築する上で鍵となる。
論文参考訳（メタデータ） (2024-10-16T15:51:18Z)
The Nature of NLP: Analyzing Contributions in NLP Papers [77.31665252336157]
我々は,NLP研究を構成するものについて,研究論文から定量的に検討する。以上の結果から,NLPにおける機械学習の関与は,90年代前半から増加傾向にあることが明らかとなった。 2020年以降、言語と人々への関心が復活した。
論文参考訳（メタデータ） (2024-09-29T01:29:28Z)
Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP [2.3499129784547663]
本研究は, 体系的かつ総合的な単言語NLPサーベイを作成する手法を導入することで, ギャップを埋めるものである。構造化された検索プロトコルによって特徴づけられ、出版物を選定し、NLPタスクの分類によってそれらを整理することができる。本手法の適用により,2012年から2022年にかけて,ギリシャNLPの体系的文献レビューを行った。
論文参考訳（メタデータ） (2024-07-13T12:01:52Z)
What Can Natural Language Processing Do for Peer Review? [173.8912784451817]
現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
論文参考訳（メタデータ） (2024-05-10T16:06:43Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Fairness Certification for Natural Language Processing and Large Language Models [0.0]
我々はNLPアプローチの公平性認定に向けた定性的な研究アプローチに従う。我々は、NLPの6つのフェアネス基準を体系的に考案し、さらに18のサブカテゴリに洗練することができる。
論文参考訳（メタデータ） (2024-01-02T16:09:36Z)
Situated Natural Language Explanations [54.083715161895036]
自然言語の説明(NLE)は、人間に意思決定を説明する最もアクセスしやすいツールである。既存のNLE研究の視点は、観客を考慮に入れない。 Situated NLEは視点を提供し、説明の生成と評価に関するさらなる研究を促進する。
論文参考訳（メタデータ） (2023-08-27T14:14:28Z)
Collaborating Heterogeneous Natural Language Processing Tasks via Federated Learning [55.99444047920231]
提案するATCフレームワークは, 各種ベースライン手法と比較して, 大幅な改善を実現している。自然言語理解(NLU)タスクと自然言語生成(NLG)タスクを対象とする,広く使用されている6つのデータセットについて,広範な実験を行った。
論文参考訳（メタデータ） (2022-12-12T09:27:50Z)
A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。 NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。 NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文参考訳（メタデータ） (2022-11-11T04:29:02Z)
Dim Wihl Gat Tun: The Case for Linguistic Expertise in NLP for Underdocumented Languages [6.8708103492634836]
何百もの未保存言語が、言語ドキュメントの取り組みから、インターリニアグロステキスト(IGT)という形でデータソースを提供している。ターゲット言語の専門知識が利用可能であれば、IGTデータをうまく活用できると仮定する。本研究は,Tsimchianic Language Gitksanのための形態的再帰システムの構築に関する事例研究を通じて,各ステップについて解説する。
論文参考訳（メタデータ） (2022-03-17T22:02:25Z)
Natural language processing for achieving sustainable development: the case of neural labelling to enhance community profiling [2.6734009991058794]
本研究は,NLPによるプロジェクトの持続可能性向上に寄与する可能性を示す。我々は、先進国と対照的に、顕著なデータギャップが存在する発展途上国におけるコミュニティプロファイリングの事例に焦点を当てる。極端に多クラスなマルチラベル分類問題である自動PV分類の課題を提案する。
論文参考訳（メタデータ） (2020-04-27T16:51:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。