論文の概要: How Language Directions Align with Token Geometry in Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2511.16693v1
- Date: Sun, 16 Nov 2025 16:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.755061
- Title: How Language Directions Align with Token Geometry in Multilingual LLMs
- Title(参考訳): 多言語LLMにおけるトークン幾何学と言語方向の整合性
- Authors: JaeSeong Kim, Suan Lee,
- Abstract要約: 我々は6つの多言語LLMについて包括的調査を行い、268の変圧器層を網羅した。
以上の結果から,第1変圧器ブロック内で言語情報が急激に分離されることが示唆された。
中国の総合モデルは16.43%のZH Match@Peakを達成する一方、英語中心のモデルは3.90%しか達成しない。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual LLMs demonstrate strong performance across diverse languages, yet there has been limited systematic analysis of how language information is structured within their internal representation space and how it emerges across layers. We conduct a comprehensive probing study on six multilingual LLMs, covering all 268 transformer layers, using linear and nonlinear probes together with a new Token--Language Alignment analysis to quantify the layer-wise dynamics and geometric structure of language encoding. Our results show that language information becomes sharply separated in the first transformer block (+76.4$\pm$8.2 percentage points from Layer 0 to 1) and remains almost fully linearly separable throughout model depth. We further find that the alignment between language directions and vocabulary embeddings is strongly tied to the language composition of the training data. Notably, Chinese-inclusive models achieve a ZH Match@Peak of 16.43\%, whereas English-centric models achieve only 3.90\%, revealing a 4.21$\times$ structural imprinting effect. These findings indicate that multilingual LLMs distinguish languages not by surface script features but by latent representational structures shaped by the training corpus. Our analysis provides practical insights for data composition strategies and fairness in multilingual representation learning. All code and analysis scripts are publicly available at: https://github.com/thisiskorea/How-Language-Directions-Align-with-Token-Geometry-in-Multilingual-LLM s.
- Abstract(参考訳): 多言語LLMは多言語間で高い性能を示すが、言語情報が内部表現空間内でどのように構造化されているか、層間でどのように現れるかという体系的な分析は限られている。
線形および非線形プローブと新しいToken-Language Alignment解析を用いて、6つの多言語LLMを包括的に探索し、言語符号化の層次ダイナミクスと幾何構造を定量化する。
以上の結果から,第1変圧器ブロック(+76.4$\pm$8.2)では,言語情報が明瞭に分離され,モデル深度を通してほぼ線形に分離可能であることがわかった。
さらに、言語方向と語彙埋め込みのアライメントは、トレーニングデータの言語構成と強く結びついていることが判明した。
注目すべきは、中国の包括的モデルは16.43 %のZH Match@Peakを達成するのに対し、英語中心のモデルは3.90 %しか達成せず、構造的なインプリント効果が 4.21$\times$であることを示していることである。
これらの結果から,多言語LLMは,表層文字の特徴ではなく,トレーニングコーパスによって形成される潜在表現構造によって言語を区別することがわかった。
本分析は,多言語表現学習におけるデータ合成戦略と公平性の実践的洞察を提供する。
すべてのコードと分析スクリプトは、https://github.com/thisiskorea/How-Language-Directions-Align-with-Token-Geometry-in-Multilingual-LLM sで公開されている。
関連論文リスト
- Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders [51.380449540006985]
大規模言語モデル(LLM)は多くの言語を処理できるが、どのようにして内部的にこの多様性を表現しているのかは不明だ。
言語固有のデコーディングと多言語表現を共有できるのでしょうか?
層間トランスコーダ(CLT)と属性グラフを用いて内部メカニズムを解析する。
論文 参考訳(メタデータ) (2025-11-13T22:51:06Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Hyperpolyglot LLMs: Cross-Lingual Interpretability in Token Embeddings [4.2243058640527575]
言語間移動学習は多言語大言語モデル(LLM)の重要な特性である
1)事前学習とモデルアーキテクチャが言語表現に与える影響,2)言語モデルに埋め込まれた言語間表現の応用について検討する。
論文 参考訳(メタデータ) (2023-11-29T19:20:14Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Meta-X$_{NLG}$: A Meta-Learning Approach Based on Language Clustering
for Zero-Shot Cross-Lingual Transfer and Generation [11.155430893354769]
本稿では,類型的に多様な言語から共有可能な構造を学習するためのメタラーニングフレームワークを提案する。
まず、まず言語表現に基づいて言語をクラスタ化し、各クラスタのセントロイド言語を識別する。
メタ学習アルゴリズムは、全てのセントロイド言語で訓練され、ゼロショット設定で他の言語で評価される。
論文 参考訳(メタデータ) (2022-03-19T05:22:07Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。