Fugu-MT 論文翻訳(概要): Aksharantar: Towards building open transliteration tools for the next billion users

論文の概要: Aksharantar: Towards building open transliteration tools for the next billion users

arxiv url: http://arxiv.org/abs/2205.03018v1
Date: Fri, 6 May 2022 05:13:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-09 13:11:36.417594
Title: Aksharantar: Towards building open transliteration tools for the next billion users
Title（参考訳）: aksharantar: 次の10億ユーザのためのオープン翻訳ツールの構築に向けて
Authors: Yash Madhani, Sushane Parthan, Priyanka Bedekar, Ruchi Khapra, Vivek Seshadri, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra
Abstract要約: Aksharantarは、21のIndic言語で2600万の翻訳ペアを含む、最大規模の公開翻訳データセットである。我々は、19言語にまたがる103kワード対を含む、Indic言語翻訳のための、新しく、大きく、多様なテストセットを導入する。 IndicXlitは、21のIndic言語をサポートするroman to Indicスクリプト変換のための、単一のトランスフォーマーベースの多言語変換モデルである。
参考スコア（独自算出の注目度）: 15.319913666390185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Aksharantar, the largest publicly available transliteration dataset for 21 Indic languages containing 26 million transliteration pairs. We build this dataset by mining transliteration pairs from large monolingual and parallel corpora, as well as collecting transliterations from human annotators to ensure diversity of words and representation of low-resource languages. We introduce a new, large, diverse testset for Indic language transliteration containing 103k words pairs spanning 19 languages that enables fine-grained analysis of transliteration models. We train the IndicXlit model on the Aksharantar training set. IndicXlit is a single transformer-based multilingual transliteration model for roman to Indic script conversion supporting 21 Indic languages. It achieves state-of-the art results on the Dakshina testset, and establishes strong baselines on the Aksharantar testset released along with this work. All the datasets and models are publicly available at https://indicnlp.ai4bharat.org/aksharantar. We hope the availability of these large-scale, open resources will spur innovation for Indic language transliteration and downstream applications.
Abstract（参考訳）: 2600万の翻訳ペアを含む21のindic言語で利用可能な最大の翻訳データセットであるaksharantarを紹介する。このデータセットは、大きなモノリンガルとパラレルコーパスから文字ペアをマイニングし、人間のアノテータから文字を収集することで、単語の多様性と低リソース言語の表現を保証する。そこで本研究では,19言語にまたがる103k単語ペアを含むindic language transliteration用の新しい大規模多種多様なテストセットを提案する。我々はAksharantarトレーニングセット上でIndicXlitモデルをトレーニングする。 IndicXlitは、21のIndic言語をサポートするroman to Indicスクリプト変換のための、単一のトランスフォーマーベースの多言語変換モデルである。 Dakshinaテストセットの最先端の成果を達成し、この作業とともにリリースされたAksharantarテストセットの強力なベースラインを確立する。すべてのデータセットとモデルは、https://indicnlp.ai4bharat.org/aksharantarで公開されている。このような大規模でオープンなリソースが利用可能になれば,indic language transliterationやダウンストリームアプリケーションのイノベーションが促進されることを願っています。

関連論文リスト

IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages [0.4194295877935868]
IndicSQuADは9つの主要なIndic言語をカバーする包括的多言語抽出QAデータセットである。 IndicSQuADは、各言語に対する広範なトレーニング、検証、テストセットを含む。言語固有の単言語BERTモデルと多言語 MuRIL-BERT を用いたベースライン性能の評価を行った。
論文参考訳（メタデータ） (2025-05-06T16:42:54Z)
BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。 BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文参考訳（メタデータ） (2024-11-07T13:33:34Z)
Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文参考訳（メタデータ） (2024-08-01T04:56:13Z)
Krutrim LLM: A Novel Tokenization Strategy for Multilingual Indic Languages with Petabyte-Scale Data Processing [0.9517284168469607]
我々は,多言語Indic大言語モデル構築のためのデータ準備のための新しいアプローチを開発する。われわれの厳密なデータ取得は、Common Crawl、Indic Book、ニュース記事、Wikipediaなど、オープンソースとプロプライエタリなソースにまたがっている。 Indic言語毎に、冗長で低品質なテキストコンテンツを効果的に除去するカスタムプリプロセッシングパイプラインを設計する。
論文参考訳（メタデータ） (2024-07-17T11:06:27Z)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文参考訳（メタデータ） (2024-02-09T18:51:49Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Breaking Language Barriers: A Question Answering Dataset for Hindi and Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文参考訳（メタデータ） (2023-08-19T00:39:21Z)
IndicTrans2: Towards High-Quality and Accessible Machine Translation Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文参考訳（メタデータ） (2023-05-25T17:57:43Z)
V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文参考訳（メタデータ） (2023-05-10T03:07:17Z)
Vakyansh: ASR Toolkit for Low Resource Indic languages [0.0]
Vakyanshは、Indic言語における音声認識のためのエンドツーエンドツールキットである。私たちは23のIndic言語で14,000時間の音声データを作成し、wav2vec 2.0ベースの事前訓練モデルを訓練します。これらの事前訓練されたモデルは、18のIndic言語のためのアート音声認識モデルの状態を作成するために微調整される。
論文参考訳（メタデータ） (2022-03-30T17:50:18Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)
Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文参考訳（メタデータ） (2020-03-10T17:17:01Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。