論文の概要: Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources
- arxiv url: http://arxiv.org/abs/2211.15649v1
- Date: Mon, 28 Nov 2022 18:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:11:51.169582
- Title: Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources
- Title(参考訳): データセットの数え方を超えて:多言語データセットの構築と必要なリソースの調査
- Authors: Xinyan Velocity Yu, Akari Asai, Trina Chatterjee, Junjie Hu and Eunsol
Choi
- Abstract要約: 公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
- 参考スコア(独自算出の注目度): 38.814057529254846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the NLP community is generally aware of resource disparities among
languages, we lack research that quantifies the extent and types of such
disparity. Prior surveys estimating the availability of resources based on the
number of datasets can be misleading as dataset quality varies: many datasets
are automatically induced or translated from English data. To provide a more
comprehensive picture of language resources, we examine the characteristics of
156 publicly available NLP datasets. We manually annotate how they are created,
including input text and label sources and tools used to build them, and what
they study, tasks they address and motivations for their creation. After
quantifying the qualitative NLP resource gap across languages, we discuss how
to improve data collection in low-resource languages. We survey
language-proficient NLP researchers and crowd workers per language, finding
that their estimated availability correlates with dataset availability. Through
crowdsourcing experiments, we identify strategies for collecting high-quality
multilingual data on the Mechanical Turk platform. We conclude by making macro
and micro-level suggestions to the NLP community and individual researchers for
future multilingual data development.
- Abstract(参考訳): NLPコミュニティは一般的に言語間の資源格差を認識しているが、そのような格差の程度と種類を定量化する研究は欠如している。
データセットの品質が変化するにつれて、データセットの数に基づいてリソースの可用性を推定する以前の調査は誤解を招く可能性がある。
より包括的な言語資源図を提供するため、156個の公開NLPデータセットの特徴について検討する。
それらは、入力テキストやラベルソース、それらを構築するのに使用されるツール、彼らが何を勉強するか、彼らが対処するタスクと彼らの作成に対するモチベーションを含む、手動で作成する方法を注釈します。
言語間の質的なNLPリソースギャップを定量化した後、低リソース言語におけるデータ収集を改善する方法について論じる。
言語に習熟したNLP研究者と言語ごとの群衆労働者を調査したところ、その推定可用性はデータセットの可用性と相関していることがわかった。
クラウドソーシング実験を通じて,メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
今後の多言語データ開発のためのNLPコミュニティと個人研究者に対してマクロおよびマイクロレベルの提案を行うことで、結論付ける。
関連論文リスト
- Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - Dataset Geography: Mapping Language Data to Language Users [17.30955185832338]
本研究では,NLPデータセットが言語話者の期待するニーズにどの程度一致しているかを定量化することを目的として,NLPデータセットの地理的代表性について検討する。
その際、エンティティ認識とリンクシステムを使用し、言語間の一貫性について重要な観察を行う。
最後に,観測された分布データセットを説明するための地理的・経済的要因について検討する。
論文 参考訳(メタデータ) (2021-12-07T05:13:50Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。