論文の概要: Understanding Cross-Lingual Inconsistency in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.13141v1
- Date: Mon, 19 May 2025 14:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.6373
- Title: Understanding Cross-Lingual Inconsistency in Large Language Models
- Title(参考訳): 大規模言語モデルにおける言語間不整合の理解
- Authors: Zheng Wei Lim, Alham Fikri Aji, Trevor Cohn,
- Abstract要約: 大規模言語モデル(LLM)は言語間移動が可能なが、異なる言語で書かれたのと同じクエリで入力されたときに一貫性のない出力を生成することができる。
LLMの暗黙的なステップを解釈するために、ロジットレンズを適用し、多言語多目的推論問題を解決する。
LLMは、共有セマンティック空間で作業するのではなく、個々の言語のサブスペースに依存しているため、一貫性が無く、精度が低いことが分かりました。
- 参考スコア(独自算出の注目度): 41.63308734381488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are demonstrably capable of cross-lingual transfer, but can produce inconsistent output when prompted with the same queries written in different languages. To understand how language models are able to generalize knowledge from one language to the others, we apply the logit lens to interpret the implicit steps taken by LLMs to solve multilingual multi-choice reasoning questions. We find LLMs predict inconsistently and are less accurate because they rely on subspaces of individual languages, rather than working in a shared semantic space. While larger models are more multilingual, we show their hidden states are more likely to dissociate from the shared representation compared to smaller models, but are nevertheless more capable of retrieving knowledge embedded across different languages. Finally, we demonstrate that knowledge sharing can be modulated by steering the models' latent processing towards the shared semantic space. We find reinforcing utilization of the shared space improves the models' multilingual reasoning performance, as a result of more knowledge transfer from, and better output consistency with English.
- Abstract(参考訳): 大規模言語モデル(LLM)は、明らかに言語間転送が可能であるが、異なる言語で書かれた同じクエリで入力されたときに一貫性のない出力を生成することができる。
言語モデルが、ある言語から他の言語への知識を一般化する方法を理解するために、LLMの暗黙的なステップを解釈するためにロジットレンズを適用し、多言語多義推論問題を解決する。
LLMは、共有セマンティック空間で作業するのではなく、個々の言語のサブスペースに依存しているため、一貫性が無く、精度が低いことが分かりました。
より大きなモデルは多言語的であるが、隠れた状態はより小さなモデルに比べて共有表現から解離しやすいが、しかしながら、異なる言語に埋め込まれた知識を検索する能力は高い。
最後に、モデルの潜在処理を共有意味空間に向けて操ることで、知識共有を調節できることを実証する。
共有空間の活用の強化は、より多くの知識伝達の結果、および英語との出力整合性の向上により、モデルの多言語推論性能を向上させる。
関連論文リスト
- Thank You, Stingray: Multilingual Large Language Models Can Not (Yet) Disambiguate Cross-Lingual Word Sense [30.62699081329474]
本稿では,言語間感覚曖昧化のための新しいベンチマーク,StingrayBenchを紹介する。
インドネシア語とマレー語、インドネシア語とタガログ語、中国語と日本語、英語とドイツ語の4つの言語ペアで偽の友人を集めます。
各種モデルの解析において,高リソース言語に偏りが生じる傾向が見られた。
論文 参考訳(メタデータ) (2024-10-28T22:09:43Z) - Beneath the Surface of Consistency: Exploring Cross-lingual Knowledge Representation Sharing in LLMs [31.893686987768742]
言語モデルは、言語全体で同じ事実に答える能力に矛盾する。
モデルがクエリに一貫して答える能力と、複数の言語で共有された表現で'ストア'する能力の2つの側面から、多言語的な事実知識を探求する。
論文 参考訳(メタデータ) (2024-08-20T08:38:30Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。