論文の概要: Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources
- arxiv url: http://arxiv.org/abs/2211.15649v1
- Date: Mon, 28 Nov 2022 18:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:11:51.169582
- Title: Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources
- Title(参考訳): データセットの数え方を超えて:多言語データセットの構築と必要なリソースの調査
- Authors: Xinyan Velocity Yu, Akari Asai, Trina Chatterjee, Junjie Hu and Eunsol
Choi
- Abstract要約: 公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
- 参考スコア(独自算出の注目度): 38.814057529254846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the NLP community is generally aware of resource disparities among
languages, we lack research that quantifies the extent and types of such
disparity. Prior surveys estimating the availability of resources based on the
number of datasets can be misleading as dataset quality varies: many datasets
are automatically induced or translated from English data. To provide a more
comprehensive picture of language resources, we examine the characteristics of
156 publicly available NLP datasets. We manually annotate how they are created,
including input text and label sources and tools used to build them, and what
they study, tasks they address and motivations for their creation. After
quantifying the qualitative NLP resource gap across languages, we discuss how
to improve data collection in low-resource languages. We survey
language-proficient NLP researchers and crowd workers per language, finding
that their estimated availability correlates with dataset availability. Through
crowdsourcing experiments, we identify strategies for collecting high-quality
multilingual data on the Mechanical Turk platform. We conclude by making macro
and micro-level suggestions to the NLP community and individual researchers for
future multilingual data development.
- Abstract(参考訳): NLPコミュニティは一般的に言語間の資源格差を認識しているが、そのような格差の程度と種類を定量化する研究は欠如している。
データセットの品質が変化するにつれて、データセットの数に基づいてリソースの可用性を推定する以前の調査は誤解を招く可能性がある。
より包括的な言語資源図を提供するため、156個の公開NLPデータセットの特徴について検討する。
それらは、入力テキストやラベルソース、それらを構築するのに使用されるツール、彼らが何を勉強するか、彼らが対処するタスクと彼らの作成に対するモチベーションを含む、手動で作成する方法を注釈します。
言語間の質的なNLPリソースギャップを定量化した後、低リソース言語におけるデータ収集を改善する方法について論じる。
言語に習熟したNLP研究者と言語ごとの群衆労働者を調査したところ、その推定可用性はデータセットの可用性と相関していることがわかった。
クラウドソーシング実験を通じて,メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
今後の多言語データ開発のためのNLPコミュニティと個人研究者に対してマクロおよびマイクロレベルの提案を行うことで、結論付ける。
関連論文リスト
- INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages [26.13077589552484]
Indic-QAは、2つの言語ファミリーから11の主要なインドの言語に対して、公開可能なコンテキストベース質問答えデータセットとして最大である。
我々は、Geminiモデルを用いて合成データセットを生成し、パスを与えられた質問応答ペアを作成し、品質保証のために手作業で検証する。
様々な多言語大言語モデルと,その命令を微調整した変種をベンチマークで評価し,その性能,特に低リソース言語について検討した。
論文 参考訳(メタデータ) (2024-07-18T13:57:16Z) - mCSQA: Multilingual Commonsense Reasoning Dataset with Unified Creation Strategy by Language Models and Humans [27.84922167294656]
言語固有の知識と常識のためにデータセットをキュレートすることは困難である。
現在の多言語データセットの多くは翻訳によって作成されており、そのような言語固有の側面を評価できない。
CSQAの構築プロセスに基づくマルチ言語コモンセンスQA(mCSQA)を提案する。
論文 参考訳(メタデータ) (2024-06-06T16:14:54Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Dataset Geography: Mapping Language Data to Language Users [17.30955185832338]
本研究では,NLPデータセットが言語話者の期待するニーズにどの程度一致しているかを定量化することを目的として,NLPデータセットの地理的代表性について検討する。
その際、エンティティ認識とリンクシステムを使用し、言語間の一貫性について重要な観察を行う。
最後に,観測された分布データセットを説明するための地理的・経済的要因について検討する。
論文 参考訳(メタデータ) (2021-12-07T05:13:50Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。