論文の概要: Improving Informally Romanized Language Identification
- arxiv url: http://arxiv.org/abs/2504.21540v1
- Date: Wed, 30 Apr 2025 11:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 19:10:55.19715
- Title: Improving Informally Romanized Language Identification
- Title(参考訳): 言語識別のインフォーマル化
- Authors: Adrian Benton, Alexander Gutkin, Christo Kirov, Brian Roark,
- Abstract要約: ローマ化は、ヒンディー語やウルドゥー語など、文字の難易度に基づいて、通常容易に区別できる言語を表現している。
我々は、トレーニングセットを合成する手法を改善することにより、ロマライズされたテキストの言語識別(LID)精度を向上させる。
本研究では,Bhasha-Abhijnaanam 評価セットにおける20のIndic言語からのロマン化テキストに対して,最先端の LID 性能を示す。
- 参考スコア(独自算出の注目度): 49.404145019682666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Latin script is often used to informally write languages with non-Latin native scripts. In many cases (e.g., most languages in India), there is no conventional spelling of words in the Latin script, hence there will be high spelling variability in written text. Such romanization renders languages that are normally easily distinguished based on script highly confusable, such as Hindi and Urdu. In this work, we increase language identification (LID) accuracy for romanized text by improving the methods used to synthesize training sets. We find that training on synthetic samples which incorporate natural spelling variation yields higher LID system accuracy than including available naturally occurring examples in the training set, or even training higher capacity models. We demonstrate new state-of-the-art LID performance on romanized text from 20 Indic languages in the Bhasha-Abhijnaanam evaluation set (Madhani et al., 2023a), improving test F1 from the reported 74.7% (using a pretrained neural model) to 85.4% using a linear classifier trained solely on synthetic data and 88.2% when also training on available harvested text.
- Abstract(参考訳): ラテン文字はしばしば非ラテンネイティブスクリプトで非公式に言語を書くために使われる。
多くの場合(例えば、インドのほとんどの言語)、ラテン文字には従来の綴りの綴りがないため、テキストの綴りの多様性が高い。
このようなロマン化は、ヒンディー語やウルドゥー語など、文字の難易度に基づいて、通常容易に区別できる言語を表現している。
本研究では,学習セットの合成法を改善することにより,ロマンティックテキストの言語識別(LID)精度を向上させる。
自然な綴りのバリエーションを取り入れた合成サンプルのトレーニングは、トレーニングセットに自然発生例を含む場合や、より高いキャパシティモデルのトレーニングよりも、LIDシステムの精度が高いことが判明した。
我々は,Bhasha-Abhijnaanam 評価セット (Madhani et al , 2023a) において,20のIndic言語によるロマナイズドテキストの新たなLID性能を実証し,74.7% から85.4% に改善した。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。
1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文 参考訳(メタデータ) (2020-07-02T14:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。