論文の概要: Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset
- arxiv url: http://arxiv.org/abs/2007.01176v1
- Date: Thu, 2 Jul 2020 14:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:20:40.112132
- Title: Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset
- Title(参考訳): ラテン文字で書かれた南アジアの言語処理:Dakshinaデータセット
- Authors: Brian Roark, Lawrence Wolf-Sonkin, Christo Kirov, Sabrina J. Mielke,
Cibu Johny, Isin Demirsahin, Keith Hall
- Abstract要約: 本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。
1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
- 参考スコア(独自算出の注目度): 9.478817207385472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the Dakshina dataset, a new resource consisting of text
in both the Latin and native scripts for 12 South Asian languages. The dataset
includes, for each language: 1) native script Wikipedia text; 2) a romanization
lexicon; and 3) full sentence parallel data in both a native script of the
language and the basic Latin alphabet. We document the methods used for
preparation and selection of the Wikipedia text in each language; collection of
attested romanizations for sampled lexicons; and manual romanization of
held-out sentences from the native script collections. We additionally provide
baseline results on several tasks made possible by the dataset, including
single word transliteration, full sentence transliteration, and language
modeling of native script and romanized text. Keywords: romanization,
transliteration, South Asian languages
- Abstract(参考訳): 本稿では,南アジア12言語を対象に,ラテン文字とネイティブ文字の両方のテキストからなる新しい資料であるdakshinaデータセットについて述べる。
データセットは、各言語について、以下を含む。
1) 原本ウィキペディアテキスト
2) romanization lexicon,及び
3) 言語のネイティブスクリプトと基本ラテン文字の両方で、全文の並列データを生成する。
各言語でwikipediaテキストの作成と選択に使用される方法、サンプルされた辞書に対する検証済みのローマ字化の収集、ネイティブスクリプトコレクションからの保持された文の手動ローマ字化を文書化する。
さらに、単一単語の文字化、全文の文字化、ネイティブスクリプトとロマン化テキストの言語モデリングなど、データセットで可能ないくつかのタスクのベースライン結果も提供する。
キーワード:ロマン化、翻訳、南アジア諸語
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。
いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。
単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文 参考訳(メタデータ) (2024-06-25T19:23:42Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization [17.46921734622369]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。
ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文 参考訳(メタデータ) (2024-01-25T16:11:41Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Bhasha-Abhijnaanam: Native-script and romanized Language Identification
for 22 Indic languages [32.5582250356516]
我々は、インド憲法に記載されている22の言語で、母国語とローマ語の両方で言語識別データセットとモデルを作成します。
まず、ネイティブスクリプトの言語識別テストセットであるBhasha-Abhijnaanamと、ロマライズされたテキストを作成する。
IndicLIDもトレーニングしています。ネイティブとローマン化されたスクリプトの両方で、上記のすべての言語用の言語識別子です。
論文 参考訳(メタデータ) (2023-05-25T07:53:23Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Aksharantar: Open Indic-language Transliteration datasets and models for
the Next Billion Users [32.23606056944172]
Aksharantarは、モノリンガルコーパスとパラレルコーパスからのマイニングによって生成された、インド語のための最大公用翻訳データセットである。
データセットには、12のスクリプトを使用して、3つの言語ファミリーから21のIndic言語に対する2600万の文字ペアが含まれている。
Aksharantarは、既存のデータセットの21倍の大きさで、7つの言語と1つの言語ファミリーのための最初の公開データセットである。
論文 参考訳(メタデータ) (2022-05-06T05:13:12Z) - Language Lexicons for Hindi-English Multilingual Text Processing [0.0]
現在の言語識別技術は、文書が固定された言語のセットの1つにテキストを含んでいることを前提としている。
ヒンディー語と英語の混合言語処理タスクのための大きな標準コーパスが利用できないため、言語辞書を提案する。
これらの語彙はヒンディー語と英語の語彙を翻訳して分類器を学習することによって作られる。
論文 参考訳(メタデータ) (2021-06-29T05:42:54Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。