論文の概要: Aksharantar: Open Indic-language Transliteration datasets and models for
the Next Billion Users
- arxiv url: http://arxiv.org/abs/2205.03018v2
- Date: Thu, 26 Oct 2023 05:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 06:54:08.199858
- Title: Aksharantar: Open Indic-language Transliteration datasets and models for
the Next Billion Users
- Title(参考訳): aksharantar: 次の10億ユーザのためのオープンインデックス言語翻訳データセットとモデル
- Authors: Yash Madhani, Sushane Parthan, Priyanka Bedekar, Gokul NC, Ruchi
Khapra, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra
- Abstract要約: Aksharantarは、モノリンガルコーパスとパラレルコーパスからのマイニングによって生成された、インド語のための最大公用翻訳データセットである。
データセットには、12のスクリプトを使用して、3つの言語ファミリーから21のIndic言語に対する2600万の文字ペアが含まれている。
Aksharantarは、既存のデータセットの21倍の大きさで、7つの言語と1つの言語ファミリーのための最初の公開データセットである。
- 参考スコア(独自算出の注目度): 32.23606056944172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transliteration is very important in the Indian language context due to the
usage of multiple scripts and the widespread use of romanized inputs. However,
few training and evaluation sets are publicly available. We introduce
Aksharantar, the largest publicly available transliteration dataset for Indian
languages created by mining from monolingual and parallel corpora, as well as
collecting data from human annotators. The dataset contains 26 million
transliteration pairs for 21 Indic languages from 3 language families using 12
scripts. Aksharantar is 21 times larger than existing datasets and is the first
publicly available dataset for 7 languages and 1 language family. We also
introduce the Aksharantar testset comprising 103k word pairs spanning 19
languages that enables a fine-grained analysis of transliteration models on
native origin words, foreign words, frequent words, and rare words. Using the
training set, we trained IndicXlit, a multilingual transliteration model that
improves accuracy by 15% on the Dakshina test set, and establishes strong
baselines on the Aksharantar testset introduced in this work. The models,
mining scripts, transliteration guidelines, and datasets are available at
https://github.com/AI4Bharat/IndicXlit under open-source licenses. We hope the
availability of these large-scale, open resources will spur innovation for
Indic language transliteration and downstream applications. We hope the
availability of these large-scale, open resources will spur innovation for
Indic language transliteration and downstream applications.
- Abstract(参考訳): 翻訳は、複数のスクリプトの使用とローマ字入力の普及により、インドの文脈において非常に重要である。
しかし、トレーニングや評価のセットは公開されていない。
Aksharantarは、モノリンガルとパラレルコーパスからのマイニングと、人間のアノテーションからのデータの収集によって生成された、インド語のための最大公用翻訳データセットである。
データセットには、12のスクリプトを使用して、3つの言語ファミリーから21のIndic言語に対する2600万の文字ペアが含まれている。
Aksharantarは、既存のデータセットの21倍の大きさで、7つの言語と1つの言語ファミリーのための最初の公開データセットである。
また、19言語にまたがる103kワード対からなるAksharantar Testetを導入し、原語、外国語、頻繁な単語、希少な単語の翻訳モデルのきめ細かい分析を可能にする。
この学習セットを用いて,dakshinaテストセットの精度を15%向上させ,本研究で導入されたaksharantarテストセットに強いベースラインを確立する多言語翻訳モデルindicxlitを訓練した。
モデル、マイニングスクリプト、翻訳ガイドライン、データセットはhttps://github.com/AI4Bharat/IndicXlitでオープンソースライセンスで公開されている。
このような大規模でオープンなリソースが利用可能になれば,indic language transliterationやダウンストリームアプリケーションのイノベーションが促進されることを願っています。
このような大規模でオープンなリソースが利用可能になれば,indic language transliterationやダウンストリームアプリケーションのイノベーションが促進されることを願っています。
関連論文リスト
- BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。
口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。
BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - Vakyansh: ASR Toolkit for Low Resource Indic languages [0.0]
Vakyanshは、Indic言語における音声認識のためのエンドツーエンドツールキットである。
私たちは23のIndic言語で14,000時間の音声データを作成し、wav2vec 2.0ベースの事前訓練モデルを訓練します。
これらの事前訓練されたモデルは、18のIndic言語のためのアート音声認識モデルの状態を作成するために微調整される。
論文 参考訳(メタデータ) (2022-03-30T17:50:18Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。