論文の概要: RomanLens: Latent Romanization and its role in Multilinguality in LLMs
- arxiv url: http://arxiv.org/abs/2502.07424v1
- Date: Tue, 11 Feb 2025 10:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:13.374277
- Title: RomanLens: Latent Romanization and its role in Multilinguality in LLMs
- Title(参考訳): RomanLens: LLMにおける潜在ロマン化と多言語性における役割
- Authors: Alan Saji, Jaavid Aktar Husain, Thanmay Jayakumar, Raj Dabre, Anoop Kunchukuttan, Mitesh M. Khapra, Ratish Puduppully,
- Abstract要約: 大言語モデル(LLM)は、英語中心のコーパスで主に訓練されているにもかかわらず、顕著な多言語一般化を示す。
非ラテン文字言語では、多言語処理におけるブリッジとしてのロマン化の役割について検討する。
- 参考スコア(独自算出の注目度): 31.940284043600055
- License:
- Abstract: Large Language Models (LLMs) exhibit remarkable multilingual generalization despite being predominantly trained on English-centric corpora. A fundamental question arises: how do LLMs achieve such robust multilingual capabilities? For non-Latin script languages, we investigate the role of romanization - the representation of non-Latin scripts using Latin characters - as a bridge in multilingual processing. Using mechanistic interpretability techniques, we analyze next-token generation and find that intermediate layers frequently represent target words in romanized form before transitioning to native script, a phenomenon we term Latent Romanization. Further, through activation patching experiments, we demonstrate that LLMs encode semantic concepts similarly across native and romanized scripts, suggesting a shared underlying representation. Additionally in translation towards non Latin languages, our findings reveal that when the target language is in romanized form, its representations emerge earlier in the model's layers compared to native script. These insights contribute to a deeper understanding of multilingual representation in LLMs and highlight the implicit role of romanization in facilitating language transfer. Our work provides new directions for potentially improving multilingual language modeling and interpretability.
- Abstract(参考訳): 大言語モデル(LLM)は、英語中心のコーパスで主に訓練されているにもかかわらず、顕著な多言語一般化を示す。
LLMはこのような堅牢な多言語機能をどのように達成しますか?
非ラテン文字言語では、ラテン文字を用いた非ラテン文字の表現であるロマン化が多言語処理におけるブリッジとしての役割について検討する。
メカニスティックな解釈可能性技術を用いて、次の世代を解析し、中間層が、ラテントロマン化(Latent Romanization)と呼ぶ現象であるネイティブスクリプトに移行する前に、ローマン化形式でターゲット語をしばしば表現することを発見した。
さらに、アクティベーションパッチ実験により、LLMがネイティブスクリプトやロマライズスクリプトに類似したセマンティック概念を符号化し、共通基盤表現を提案する。
さらに,非ラテン言語への翻訳では,対象言語がロマン化形式である場合,その表現がネイティブスクリプトと比較してモデルの層に早く現れることが判明した。
これらの知見は、LLMにおける多言語表現のより深い理解に寄与し、言語伝達を促進する上でのロマン化の暗黙的な役割を強調している。
我々の研究は、多言語言語モデリングと解釈可能性を改善するための新しい方向性を提供する。
関連論文リスト
- LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。
インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。
各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文 参考訳(メタデータ) (2024-10-28T22:09:43Z) - How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization [17.46921734622369]
ロマンティックテキストはトークンの肥大度を2x-4x削減する。
ロマンティックテキストは、様々なNLU、NLG、MTタスクにまたがるネイティブスクリプト表現にマッチまたは優れる。
論文 参考訳(メタデータ) (2024-01-25T16:11:41Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Massively Multilingual Lexical Specialization of Multilingual
Transformers [18.766379322798837]
本稿では,2つの標準言語間語彙タスクにおいて,多言語レキシカル特殊化が著しく向上することを示す。
我々は,語彙制約のない言語への多言語語彙の特殊化によって一般化できることを示唆し,特殊化に欠かせない言語に対するゲインを観察する。
論文 参考訳(メタデータ) (2022-08-01T17:47:03Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。