論文の概要: Aksharantar: Towards building open transliteration tools for the next
billion users
- arxiv url: http://arxiv.org/abs/2205.03018v1
- Date: Fri, 6 May 2022 05:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:11:36.417594
- Title: Aksharantar: Towards building open transliteration tools for the next
billion users
- Title(参考訳): aksharantar: 次の10億ユーザのためのオープン翻訳ツールの構築に向けて
- Authors: Yash Madhani, Sushane Parthan, Priyanka Bedekar, Ruchi Khapra, Vivek
Seshadri, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra
- Abstract要約: Aksharantarは、21のIndic言語で2600万の翻訳ペアを含む、最大規模の公開翻訳データセットである。
我々は、19言語にまたがる103kワード対を含む、Indic言語翻訳のための、新しく、大きく、多様なテストセットを導入する。
IndicXlitは、21のIndic言語をサポートするroman to Indicスクリプト変換のための、単一のトランスフォーマーベースの多言語変換モデルである。
- 参考スコア(独自算出の注目度): 15.319913666390185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Aksharantar, the largest publicly available transliteration
dataset for 21 Indic languages containing 26 million transliteration pairs. We
build this dataset by mining transliteration pairs from large monolingual and
parallel corpora, as well as collecting transliterations from human annotators
to ensure diversity of words and representation of low-resource languages. We
introduce a new, large, diverse testset for Indic language transliteration
containing 103k words pairs spanning 19 languages that enables fine-grained
analysis of transliteration models.
We train the IndicXlit model on the Aksharantar training set. IndicXlit is a
single transformer-based multilingual transliteration model for roman to Indic
script conversion supporting 21 Indic languages. It achieves state-of-the art
results on the Dakshina testset, and establishes strong baselines on the
Aksharantar testset released along with this work.
All the datasets and models are publicly available at
https://indicnlp.ai4bharat.org/aksharantar. We hope the availability of these
large-scale, open resources will spur innovation for Indic language
transliteration and downstream applications.
- Abstract(参考訳): 2600万の翻訳ペアを含む21のindic言語で利用可能な最大の翻訳データセットであるaksharantarを紹介する。
このデータセットは、大きなモノリンガルとパラレルコーパスから文字ペアをマイニングし、人間のアノテータから文字を収集することで、単語の多様性と低リソース言語の表現を保証する。
そこで本研究では,19言語にまたがる103k単語ペアを含むindic language transliteration用の新しい大規模多種多様なテストセットを提案する。
我々はAksharantarトレーニングセット上でIndicXlitモデルをトレーニングする。
IndicXlitは、21のIndic言語をサポートするroman to Indicスクリプト変換のための、単一のトランスフォーマーベースの多言語変換モデルである。
Dakshinaテストセットの最先端の成果を達成し、この作業とともにリリースされたAksharantarテストセットの強力なベースラインを確立する。
すべてのデータセットとモデルは、https://indicnlp.ai4bharat.org/aksharantarで公開されている。
このような大規模でオープンなリソースが利用可能になれば,indic language transliterationやダウンストリームアプリケーションのイノベーションが促進されることを願っています。
関連論文リスト
- BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。
口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。
BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - Vakyansh: ASR Toolkit for Low Resource Indic languages [0.0]
Vakyanshは、Indic言語における音声認識のためのエンドツーエンドツールキットである。
私たちは23のIndic言語で14,000時間の音声データを作成し、wav2vec 2.0ベースの事前訓練モデルを訓練します。
これらの事前訓練されたモデルは、18のIndic言語のためのアート音声認識モデルの状態を作成するために微調整される。
論文 参考訳(メタデータ) (2022-03-30T17:50:18Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。