論文の概要: Samanantar: The Largest Publicly Available Parallel Corpora Collection
for 11 Indic Languages
- arxiv url: http://arxiv.org/abs/2104.05596v1
- Date: Mon, 12 Apr 2021 16:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:19:55.164555
- Title: Samanantar: The Largest Publicly Available Parallel Corpora Collection
for 11 Indic Languages
- Title(参考訳): samanantar: 11のindic言語で利用可能な最大の並列コーパスコレクション
- Authors: Gowtham Ramesh, Sumanth Doddapaneni, Aravinth Bheemaraj, Mayank
Jobanputra, Raghavan AK, Ajitesh Sharma, Sujit Sahoo, Harshita Diddee,
Mahalakshmi J, Divyanshu Kakwani, Navneet Kumar, Aswin Pradeep, Kumar Deepak,
Vivek Raghavan, Anoop Kunchukuttan, Pratyush Kumar, Mitesh Shantadevi Khapra
- Abstract要約: Samanantarは、Indic言語のための最大の公開並列コーポラコレクションです。
このコレクションには、英語と11のIndic言語の間に合計469万の文対が含まれている。
- 参考スコア(独自算出の注目度): 4.171440601217338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Samanantar, the largest publicly available parallel corpora
collection for Indic languages. The collection contains a total of 46.9 million
sentence pairs between English and 11 Indic languages (from two language
families). In particular, we compile 12.4 million sentence pairs from existing,
publicly-available parallel corpora, and we additionally mine 34.6 million
sentence pairs from the web, resulting in a 2.8X increase in publicly available
sentence pairs. We mine the parallel sentences from the web by combining many
corpora, tools, and methods. In particular, we use (a) web-crawled monolingual
corpora, (b) document OCR for extracting sentences from scanned documents (c)
multilingual representation models for aligning sentences, and (d) approximate
nearest neighbor search for searching in a large collection of sentences. Human
evaluation of samples from the newly mined corpora validate the high quality of
the parallel sentences across 11 language pairs. Further, we extracted 82.7
million sentence pairs between all 55 Indic language pairs from the
English-centric parallel corpus using English as the pivot language. We trained
multilingual NMT models spanning all these languages on Samanantar and compared
with other baselines and previously reported results on publicly available
benchmarks. Our models outperform existing models on these benchmarks,
establishing the utility of Samanantar. Our
data\footnote{https://indicnlp.ai4bharat.org/samanantar} and
models\footnote{https://github.com/AI4Bharat/IndicTrans} will be available
publicly and we hope they will help advance research in Indic NMT and
multilingual NLP for Indic languages.
- Abstract(参考訳): 我々は,indic 言語で利用可能な最大規模の並列コーパスコレクションである samanantar を提案する。
このコレクションには、英語と11のIndic言語(2つの言語族)の合計4690万の文対が含まれている。
特に、既存のパラレルコーパスから1240万の文ペアをコンパイルし、さらにwebから3460万の文ペアを抽出し、公開可能な文ペアの2.8倍の増加を実現しました。
多くのコーパスやツール,メソッドを組み合わせることで,Webから並列文を抽出する。
特に, (a) ウェブクローリングされた単言語コーパス, (b) スキャンされた文書から文を抽出するためのocr, (c) 文を整列するための多言語表現モデル, (d) 大量の文を検索するために, 近距離近傍探索を行う。
新たに採掘したコーパスから採取したサンプルの人間による評価により,11言語対の並列文の品質が検証された。
さらに,ピボット言語として英語を用いて,英語中心の並列コーパスから,55言語対の870万文対を抽出した。
Samanantar上でこれらの言語にまたがる多言語NMTモデルをトレーニングし、他のベースラインと比較した。
我々のモデルはこれらのベンチマークで既存のモデルより優れており、Samanantarの実用性を確立しています。
我々の data\footnote{https://indicnlp.ai4bharat.org/samanantar} と model\footnote{https://github.com/AI4Bharat/IndicTrans} が公開され、Indic NMT および Indic 言語用多言語 NLP の研究の進展を支援することを期待しています。
関連論文リスト
- IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages [12.514648269553104]
IndicGenBenchは、大規模言語モデル(LLM)を評価するための最大のベンチマークである。
言語間要約、機械翻訳、言語間質問応答などの多様な世代タスクで構成されている。
最大の PaLM-2 モデルは、ほとんどのタスクにおいて最高に機能するが、英語と比較して全ての言語で顕著な性能差がある。
論文 参考訳(メタデータ) (2024-04-25T17:57:36Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - Towards Leaving No Indic Language Behind: Building Monolingual Corpora,
Benchmark and Models for Indic Languages [19.91781398526369]
3つの重要な軸に沿ってコントリビューションを行うことで、Indic言語のNLU機能を改善することを目指している。
具体的には、4つの言語ファミリーの24言語をカバーする20.9Bトークンで、最大のモノリンガルコーパスであるIndicCorpをキュレートする。
我々は、20言語をカバーする9つの異なるNLUタスクからなる人間によるベンチマークIndicXTREMEを作成する。
言語やタスク全体にわたって、IndicXTREMEには合計105の評価セットが含まれており、そのうち52が新たな文献への貢献である。
論文 参考訳(メタデータ) (2022-12-11T04:45:50Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - PMIndia -- A Collection of Parallel Corpora of Languages of India [10.434922903332415]
インドの主要言語13言語と英語を組み合わせたパラレル文からなる新しい公開コーパス(PMIndia)について述べる。
コーパスには、各言語対について最大56000の文が含まれている。
本稿では,2つの異なる自動文アライメント手法の評価を含むコーパスの構築方法について解説し,初期NMTの結果をコーパスに提示する。
論文 参考訳(メタデータ) (2020-01-27T16:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。