論文の概要: Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi
- arxiv url: http://arxiv.org/abs/2308.09862v3
- Date: Sat, 17 Feb 2024 07:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 06:10:06.581819
- Title: Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi
- Title(参考訳): 言語障壁を打破する - HindiとMarathiのための質問回答データセット
- Authors: Maithili Sabane and Onkar Litake and Aman Chadha
- Abstract要約: 本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advances in deep-learning have led to the development of highly
sophisticated systems with an unquenchable appetite for data. On the other
hand, building good deep-learning models for low-resource languages remains a
challenging task. This paper focuses on developing a Question Answering dataset
for two such languages- Hindi and Marathi. Despite Hindi being the 3rd most
spoken language worldwide, with 345 million speakers, and Marathi being the
11th most spoken language globally, with 83.2 million speakers, both languages
face limited resources for building efficient Question Answering systems. To
tackle the challenge of data scarcity, we have developed a novel approach for
translating the SQuAD 2.0 dataset into Hindi and Marathi. We release the
largest Question-Answering dataset available for these languages, with each
dataset containing 28,000 samples. We evaluate the dataset on various
architectures and release the best-performing models for both Hindi and
Marathi, which will facilitate further research in these languages. Leveraging
similarity tools, our method holds the potential to create datasets in diverse
languages, thereby enhancing the understanding of natural language across
varied linguistic contexts. Our fine-tuned models, code, and dataset will be
made publicly available.
- Abstract(参考訳): ディープラーニングの最近の進歩は、データに対する待ちきれない食欲を持つ高度に洗練されたシステムの開発につながった。
一方、低リソース言語のための優れたディープラーニングモデルの構築は、依然として難しい課題です。
本稿では,ヒンディー語とマラティ語という2つの言語を対象とした質問応答データセットの開発に着目する。
ヒンディー語は3億4500万人の話者を持つ世界第3位の言語であり、マラティ語は世界第11位の言語であり、8320万人の話者を持つにもかかわらず、どちらの言語も効率的な質問応答システムを構築するための限られたリソースに直面している。
データ不足の課題に取り組むため,我々は squad 2.0 データセットをhindi と marathi に変換する新しい手法を開発した。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
各種アーキテクチャのデータセットを評価し、ヒンディー語とマラティー語の両方で最高の性能のモデルをリリースし、これらの言語の研究をさらに促進する。
類似性ツールを活用することで、多様な言語でデータセットを作成する可能性を秘め、様々な言語文脈における自然言語の理解を深める。
微調整されたモデル、コード、データセットが公開される予定だ。
関連論文リスト
- IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - Cross-lingual Offensive Language Identification for Low Resource
Languages: The Case of Marathi [2.4737119633827174]
MOLDはMarathiのためにコンパイルされた最初のデータセットであり、低リソースのインド・アーリア語の研究のための新しいドメインを開設した。
このデータセットに関するいくつかの機械学習実験の結果は、ゼロショートや最先端の言語間変換器に関する他のトランスファーラーニング実験を含む。
論文 参考訳(メタデータ) (2021-09-08T11:29:44Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。