論文の概要: IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages
- arxiv url: http://arxiv.org/abs/2305.16307v2
- Date: Sat, 17 Jun 2023 04:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 01:53:13.183339
- Title: IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages
- Title(参考訳): IndicTrans2:22言語すべてを対象とした高品質・アクセシブル機械翻訳モデル
- Authors: AI4Bharat and Jay Gala and Pranjal A. Chitale and Raghavan AK and
Sumanth Doddapaneni and Varun Gumma and Aswanth Kumar and Janki Nawale and
Anupama Sujatha and Ratish Puduppully and Vivek Raghavan and Pratyush Kumar
and Mitesh M. Khapra and Raj Dabre and Anoop Kunchukuttan
- Abstract要約: インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
- 参考スコア(独自算出の注目度): 18.72281340416613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: India has a rich linguistic landscape with languages from 4 major language
families spoken by over a billion people. 22 of these languages are listed in
the Constitution of India (referred to as scheduled languages) are the focus of
this work. Given the linguistic diversity, high-quality and accessible Machine
Translation (MT) systems are essential in a country like India. Prior to this
work, there was (i) no parallel training data spanning all the 22 languages,
(ii) no robust benchmarks covering all these languages and containing content
relevant to India, and (iii) no existing translation models which support all
the 22 scheduled languages of India. In this work, we aim to address this gap
by focusing on the missing pieces required for enabling wide, easy, and open
access to good machine translation systems for all 22 scheduled Indian
languages. We identify four key areas of improvement: curating and creating
larger training datasets, creating diverse and high-quality benchmarks,
training multilingual models, and releasing models with open access. Our first
contribution is the release of the Bharat Parallel Corpus Collection (BPCC),
the largest publicly available parallel corpora for Indic languages. BPCC
contains a total of 230M bitext pairs, of which a total of 126M were newly
added, including 644K manually translated sentence pairs created as part of
this work. Our second contribution is the release of the first n-way parallel
benchmark covering all 22 Indian languages, featuring diverse domains,
Indian-origin content, and source-original test sets. Next, we present
IndicTrans2, the first model to support all 22 languages, surpassing existing
models on multiple existing and new benchmarks created as a part of this work.
Lastly, to promote accessibility and collaboration, we release our models and
associated data with permissive licenses at
https://github.com/ai4bharat/IndicTrans2.
- Abstract(参考訳): インドは10億人を超える人々が話す4つの主要な言語ファミリーの言語を持つ豊かな言語環境を持っている。
これらの言語のうち22言語はインド憲法(予定言語)に記載されており、この研究の焦点となっている。
言語の多様性を考えると、インドのような国では高品質でアクセスしやすい機械翻訳(mt)システムが不可欠である。
この作業の前には、
(i)22言語にまたがる並列トレーニングデータはない。
(ii)これらの言語をすべてカバーし、インドに関連する内容を含む堅牢なベンチマークは存在せず、
(3)インドの22の予定言語すべてをサポートする既存の翻訳モデルはない。
本研究は,22言語すべてを対象とした機械翻訳システムへの,広範かつ容易かつオープンなアクセスを可能にするために必要な欠片に着目して,このギャップに対処することを目的とする。
より大きなトレーニングデータセットのキュレーションと作成、多様で高品質なベンチマークの作成、多言語モデルのトレーニング、オープンアクセスモデルのリリースの4つです。
bharat parallel corpus collection (bpcc) は、indic 言語で利用可能な最大のパラレルコーパスである。
bpccには合計230mのバイテキストペアが含まれており、そのうち644kの手動翻訳文ペアを含む合計116mが新たに追加された。
第2のコントリビューションは、さまざまなドメイン、インドオリジンコンテンツ、ソース元のテストセットを特徴とする、22言語すべてをカバーする最初のn-way並列ベンチマークのリリースです。
次に、22言語すべてをサポートする最初のモデルであるIndicTrans2を紹介します。
最後に、アクセシビリティとコラボレーションを促進するために、我々のモデルと関連するデータをhttps://github.com/ai4bharat/IndicTrans2でパーミッシブライセンスでリリースします。
関連論文リスト
- BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。
口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。
BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - IndicVoices: Towards building an Inclusive Multilingual Speech Dataset
for Indian Languages [17.862027695142825]
INDICVOICESは、145のインド地区と22の言語をカバーする16237人の話者による自然および自発的なスピーチのデータセットである。
1639時間は既に書き起こされており、言語ごとの平均的な時間は73時間である。
この作業の一部として開発されたデータ、ツール、ガイドライン、モデル、その他の材料はすべて公開されます。
論文 参考訳(メタデータ) (2024-03-04T10:42:08Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for
Languages in India [33.31556860332746]
PMIndiaSumは、インドの言語に焦点を当てた多言語および大規模並列要約コーパスである。
私たちのコーパスは、4つの言語ファミリー、14の言語、196の言語ペアを持つ最大規模のトレーニングとテストの場を提供します。
論文 参考訳(メタデータ) (2023-05-15T17:41:15Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - Aksharantar: Open Indic-language Transliteration datasets and models for
the Next Billion Users [32.23606056944172]
Aksharantarは、モノリンガルコーパスとパラレルコーパスからのマイニングによって生成された、インド語のための最大公用翻訳データセットである。
データセットには、12のスクリプトを使用して、3つの言語ファミリーから21のIndic言語に対する2600万の文字ペアが含まれている。
Aksharantarは、既存のデータセットの21倍の大きさで、7つの言語と1つの言語ファミリーのための最初の公開データセットである。
論文 参考訳(メタデータ) (2022-05-06T05:13:12Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。