論文の概要: Bhasha-Abhijnaanam: Native-script and romanized Language Identification
for 22 Indic languages
- arxiv url: http://arxiv.org/abs/2305.15814v2
- Date: Wed, 14 Jun 2023 11:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:28:09.110742
- Title: Bhasha-Abhijnaanam: Native-script and romanized Language Identification
for 22 Indic languages
- Title(参考訳): Bhasha-Abhijnaanam:22言語におけるネイティブスクリプトとロマン化言語同定
- Authors: Yash Madhani, Mitesh M. Khapra, Anoop Kunchukuttan
- Abstract要約: 我々は、インド憲法に記載されている22の言語で、母国語とローマ語の両方で言語識別データセットとモデルを作成します。
まず、ネイティブスクリプトの言語識別テストセットであるBhasha-Abhijnaanamと、ロマライズされたテキストを作成する。
IndicLIDもトレーニングしています。ネイティブとローマン化されたスクリプトの両方で、上記のすべての言語用の言語識別子です。
- 参考スコア(独自算出の注目度): 16.048635961682045
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We create publicly available language identification (LID) datasets and
models in all 22 Indian languages listed in the Indian constitution in both
native-script and romanized text. First, we create Bhasha-Abhijnaanam, a
language identification test set for native-script as well as romanized text
which spans all 22 Indic languages. We also train IndicLID, a language
identifier for all the above-mentioned languages in both native and romanized
script. For native-script text, it has better language coverage than existing
LIDs and is competitive or better than other LIDs. IndicLID is the first LID
for romanized text in Indian languages. Two major challenges for romanized text
LID are the lack of training data and low-LID performance when languages are
similar. We provide simple and effective solutions to these problems. In
general, there has been limited work on romanized text in any language, and our
findings are relevant to other languages that need romanized language
identification. Our models are publicly available at
https://ai4bharat.iitm.ac.in/indiclid under open-source licenses. Our training
and test sets are also publicly available at
https://ai4bharat.iitm.ac.in/bhasha-abhijnaanam under open-source licenses.
- Abstract(参考訳): 我々は、インド憲法に記載されている22の言語について、言語識別(LID)データセットとモデルを作成する。
まず、ネイティブスクリプト用の言語識別テストセットであるbhasha-abhijnaanamと、22のindic言語にまたがるローマ字テキストを作成します。
IndicLIDは、上記のすべての言語をネイティブおよびローマン化されたスクリプトで識別する言語である。
ネイティブテキストでは、既存のLIDよりも言語カバレッジが良く、他のLIDよりも競争力がある。
IndicLIDは、インド語でロマライズされたテキストのための最初のLIDである。
romanized text LIDの2つの大きな課題は、トレーニングデータの欠如と、言語が似ている場合の低LIDパフォーマンスである。
これらの問題に対する単純で効果的な解決策を提供する。
一般に、いかなる言語においてもローマ字化テキストに関する作業は限られており、この発見はローマ字化言語識別を必要とする他の言語に関連している。
私たちのモデルはオープンソースライセンスの下でhttps://ai4bharat.iitm.ac.in/indiclidで公開されています。
私たちのトレーニングとテストセットは、オープンソースライセンスの下でhttps://ai4bharat.iitm.ac.in/bhasha-abhijnaanamで公開されています。
関連論文リスト
- Script-Agnostic Language Identification [21.19710835737713]
コンカニ語、カシミリ語、パンジャービ語などの現代語は、複数の文字で同期的に書かれている。
いくつかの異なる実験手法を用いて,スクリプトに依存しない表現の学習を提案する。
単語レベルのスクリプトランダム化と複数のスクリプトで書かれた言語への露出は、下流のスクリプトに依存しない言語識別に非常に有用である。
論文 参考訳(メタデータ) (2024-06-25T19:23:42Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Aksharantar: Open Indic-language Transliteration datasets and models for
the Next Billion Users [32.23606056944172]
Aksharantarは、モノリンガルコーパスとパラレルコーパスからのマイニングによって生成された、インド語のための最大公用翻訳データセットである。
データセットには、12のスクリプトを使用して、3つの言語ファミリーから21のIndic言語に対する2600万の文字ペアが含まれている。
Aksharantarは、既存のデータセットの21倍の大きさで、7つの言語と1つの言語ファミリーのための最初の公開データセットである。
論文 参考訳(メタデータ) (2022-05-06T05:13:12Z) - "A Passage to India": Pre-trained Word Embeddings for Indian Languages [30.607474624873014]
既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
論文 参考訳(メタデータ) (2021-12-27T17:31:04Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。
1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文 参考訳(メタデータ) (2020-07-02T14:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。