論文の概要: Pretrained Multilingual Transformers Reveal Quantitative Distance Between Human Languages
- arxiv url: http://arxiv.org/abs/2603.17912v1
- Date: Wed, 18 Mar 2026 16:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.828813
- Title: Pretrained Multilingual Transformers Reveal Quantitative Distance Between Human Languages
- Title(参考訳): 事前学習型多言語変換器による言語間距離の定量化
- Authors: Yue Zhao, Jiatao Gu, Paloma Jeretič, Weijie Su,
- Abstract要約: 本稿では,事前学習した多言語言語モデルを言語計測の体系的な手段として活用する手法を提案する。
これらのモデルの自然発生的注意機構が,言語間距離の頑健かつトークン化に依存しない尺度を提供することを示す。
この結果から,ニューラルネットワークを用いた言語仮説の検証の基礎が確立された。
- 参考スコア(独自算出の注目度): 25.106812852291622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the distance between human languages is central to linguistics, anthropology, and tracing human evolutionary history. Yet, while linguistics has long provided rich qualitative accounts of cross-linguistic variation, a unified and scalable quantitative approach to measuring language distance remains lacking. In this paper, we introduce a method that leverages pretrained multilingual language models as systematic instruments for linguistic measurement. Specifically, we show that the spontaneously emerged attention mechanisms of these models provide a robust, tokenization-agnostic measure of cross-linguistic distance, termed Attention Transport Distance (ATD). By treating attention matrices as probability distributions and measuring their geometric divergence via optimal transport, we quantify the representational distance between languages during translation. Applying ATD to a large and diverse set of languages, we demonstrate that the resulting distances recover established linguistic groupings with high fidelity and reveal patterns aligned with geographic and contact-induced relationships. Furthermore, incorporating ATD as a regularizer improves transfer performance in low-resource machine translation. Our results establish a principled foundation for testing linguistic hypotheses using artificial neural networks. This framework transforms multilingual models into powerful tools for quantitative linguistic discovery, facilitating more equitable multilingual AI.
- Abstract(参考訳): 人間の言語間の距離を理解することは、言語学、人類学、人類進化史の追跡の中心である。
しかし、言語学は長い間、言語間変異の豊かな質的な説明を提供してきたが、言語間距離を測る統一的でスケーラブルな定量的アプローチはいまだに欠けている。
本稿では,事前学習した多言語言語モデルを言語計測の体系的な手段として活用する手法を提案する。
具体的には,これらのモデルの自発的に出現する注意機構が,意識移動距離(ATD)と呼ばれる言語間距離の頑健かつトークン化に依存しない尺度を提供することを示す。
注意行列を確率分布として扱い、その幾何学的ばらつきを最適輸送によって測定することにより、翻訳中の言語間の表現距離を定量化する。
ATDを多種多様な言語に適用することにより,得られた距離が高忠実度で確立された言語グループを復元し,地理的・接触的関係に整合したパターンを明らかにする。
さらに、ATDをレギュレータとして組み込むことで、低リソース機械翻訳における転送性能が向上する。
この結果から,ニューラルネットワークを用いた言語仮説の検証の基礎が確立された。
このフレームワークは、多言語モデルを定量的言語発見のための強力なツールに変換し、より公平な多言語AIを促進する。
関連論文リスト
- SteerEval: Inference-time Interventions Strengthen Multilingual Generalization in Neural Summarization Metrics [33.30877107523988]
この領域における主要な実証的ボトルネックは、多くの言語に対する正確で堅牢な評価指標の不足である。
近年の研究では、多言語モデルはしばしば英語を内部のピボット言語として使用することが示唆されている。
このミスマッチが多言語神経メトリクスにも適用できるという仮説に触発されて、英語のピボットに向けてのアクティベーションを操ることで、人間の判断との相関が向上するかどうかを問う。
論文 参考訳(メタデータ) (2026-01-22T09:49:29Z) - LiveCLKTBench: Towards Reliable Evaluation of Cross-Lingual Knowledge Transfer in Multilingual LLMs [67.09110757873142]
言語間知識伝達の分離と計測を目的とした自動生成パイプラインであるLiveCLKTBenchを提案する。
我々のパイプラインは、実世界のドメインから自己完結した、時間に敏感な知識エンティティを識別する。
これらの有効なエンティティのドキュメントは、複数の言語に翻訳される事実的な質問を生成するために使用される。
論文 参考訳(メタデータ) (2025-11-03T17:06:49Z) - Modality Matching Matters: Calibrating Language Distances for Cross-Lingual Transfer in URIEL+ [4.262015666551064]
タイプマッチング言語距離のためのフレームワークを提案する。
距離タイプ毎に新しい構造認識表現を提案する。
我々はこれらの信号を頑健でタスクに依存しない複合距離に統一する。
論文 参考訳(メタデータ) (2025-10-22T03:59:19Z) - Neighbors and relatives: How do speech embeddings reflect linguistic connections across the world? [0.7168794329741259]
本研究では,XLS-R自己教師型言語識別モデルvox107-xls-r-300m-wav2vecの埋め込みを用いて106世界言語間の関係を解析した。
線形識別分析(LDA)を用いて、言語埋め込みをクラスタ化し、系譜、語彙、地理的距離と比較する。
その結果, 埋め込み型距離は従来の指標と密接に一致し, グローバルおよび局所的な類型パターンを効果的に捉えることができた。
論文 参考訳(メタデータ) (2025-06-10T08:33:34Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Cross-Linguistic Transfer in Multilingual NLP: The Role of Language Families and Morphology [0.0]
言語間移動は多言語NLPの重要な側面となっている。
本稿では,言語科と形態学のレンズによる言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-20T04:19:34Z) - Exploring Cross-lingual Latent Transplantation: Mutual Opportunities and Open Challenges [48.96952594416528]
現在の大規模言語モデル(LLM)は多言語能力と文化的適応性に不均衡を示すことが多い。
XTransplantフレームワークは、言語間で潜在的なアクティベーションを移植することで、英語と非英語のリソースの相補的な長所を利用することができる。
論文 参考訳(メタデータ) (2024-12-17T09:05:30Z) - Zero-shot Cross-lingual Transfer Learning with Multiple Source and Target Languages for Information Extraction: Language Selection and Adversarial Training [38.19963761398705]
本稿では,近年のIEコーパスにおける多言語多言語変換可能性(多言語間移動学習)に関する詳細な解析を行う。
まず、単一言語のパフォーマンスと幅広い言語に基づく距離の相関について検討する。
次に,複数の言語が学習・評価プロセスに関与している,より一般的なゼロショット多言語転送設定について検討する。
論文 参考訳(メタデータ) (2024-11-13T17:13:25Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。