論文の概要: Brain-LLM Alignment Tracks Training Data, Not Typology
- arxiv url: http://arxiv.org/abs/2605.23032v1
- Date: Thu, 21 May 2026 20:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.096998
- Title: Brain-LLM Alignment Tracks Training Data, Not Typology
- Title(参考訳): Brain-LLMアライメントは、タイポロジーではなくトレーニングデータを追跡する
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: 脳-LLMアライメントは英語でよく確立されているが、脳の言語ネットワークは言語全体で神経解剖学的に普遍的である。
我々は、英語、中国語、フランス語の参加者112人のfMRIデータを用いてこれを検証した。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain-LLM alignment is well established in English, yet the brain's language network is neuroanatomically universal across languages. Does alignment also generalize cross-linguistically, and what governs the variation? We test this using fMRI data from 112 participants across English, Chinese, and French (the Le Petit Prince corpus) and seven LLMs spanning English-dominant, Chinese-dominant, and multilingual architectures. Our central finding is that training-language dominance, not an inherent property of English, drives the alignment pattern: a Chinese-dominant model (Baichuan2-7B), architecture-matched to LLaMA-2-7B, reverses the gradient entirely, aligning best with Chinese brains and worst with English. Beyond training dominance, formal typological distance independently covaries with alignment degradation, syntax-associated brain regions (IFG) show $2.3\times$ steeper typological gradients than lexico-semantic regions (PTL), and tokenization fertility accounts for $\sim$60% of a cross-linguistic shift in optimal encoding layer. These results reveal that the apparent "English advantage" in brain-LLM alignment is an artifact of training data composition, while the remaining variation reflects genuine typological structure concentrated in syntactic processing.
- Abstract(参考訳): 脳-LLMアライメントは英語でよく確立されているが、脳の言語ネットワークは言語間で神経解剖学的に普遍的である。
アライメントはまた、言語間を一般化し、その変動をどう支配するか?
我々は、英語、中国語、フランス語の参加者112名(Le Petit Prince corpus)と、英語、中国語、多言語アーキテクチャにまたがる7つのLLMのfMRIデータを用いてこれを検証した。
LLaMA-2-7Bに適合した中国支配モデル(Baichuan2-7B)は、その勾配を完全に逆転させ、中国語の脳と最良に整合し、英語で最悪のものとなる。
トレーニングの優位性以外にも、アライメントの低下を伴う形式的なタイプボロジー距離、構文関連脳領域(IFG)は2.3\times$ lexico-semantic region (PTL)よりも急激なタイプボロジー勾配を示し、トークン化の肥大は最適なエンコーディング層における言語間シフトの60ドルに対して$\sim$60%を占める。
これらの結果から,脳-LLMアライメントにおける明らかな「英語の優位性」はトレーニングデータ合成の成果であり,残りの変化は構文処理に集中した真の型構造を反映していることが明らかとなった。
関連論文リスト
- Cross-lingual robustness of LLM-brain alignment and its computational roots [7.342679013491229]
大規模言語モデル(LLM)は、言語理解とトランスフォーマー深度の間の神経活動を確実に予測する。
脳-LLMアライメントを3言語に分けて検討するために,多言語,全脳符号化フレームワークを用いた。
論文 参考訳(メタデータ) (2026-05-20T11:34:05Z) - Computational Lesions in Multilingual Language Models Separate Shared and Language-specific Brain Alignment [43.72658186052991]
脳がさまざまな言語で言語をどのようにサポートしているかは、神経科学の基本的な問題であり、多言語人工知能にとって有用なテストである。
ここでは、制御可能なシステムとして6つの多言語大言語モデル(LLM)を使用し、対象とする計算障害を生成する。
自然主義的物語聴取100分間における機能的磁気共鳴画像(fMRI)の応答予測における無傷モデルと損傷モデルの比較を行った。
論文 参考訳(メタデータ) (2026-04-12T13:06:47Z) - Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation [9.23725598061561]
本研究は3つのサブワードパラダイムであるByte Pairを体系的に比較する。
BPE(Overlap BPE)、OBPE(Overlap BPE)、Unigram Language Model(Unigram Language Model)。
OBPEは従来手法よりも強い形態的アライメントとタグ付け精度を実現する。
論文 参考訳(メタデータ) (2026-02-04T05:59:25Z) - How Language Directions Align with Token Geometry in Multilingual LLMs [1.0312968200748118]
我々は6つの多言語LLMについて包括的調査を行い、268の変圧器層を網羅した。
以上の結果から,第1変圧器ブロック内で言語情報が急激に分離されることが示唆された。
中国の総合モデルは16.43%のZH Match@Peakを達成する一方、英語中心のモデルは3.90%しか達成しない。
論文 参考訳(メタデータ) (2025-11-16T16:36:56Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Information-Restricted Neural Language Models Reveal Different Brain
Regions' Sensitivity to Semantics, Syntax and Context [87.31930367845125]
テキストコーパスを用いて語彙言語モデルGloveと超語彙言語モデルGPT-2を訓練した。
そして、これらの情報制限されたモデルが、自然主義的テキストを聴く人間のfMRI信号の時間軸を予測することができるかを評価した。
分析の結果、言語に関わるほとんどの脳領域は、構文変数と意味変数の両方に敏感であるが、これらの影響の相対的な大きさは、これらの領域で大きく異なることがわかった。
論文 参考訳(メタデータ) (2023-02-28T08:16:18Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - SLING: Sino Linguistic Evaluation of Large Language Models [34.42512869432145]
Sling (Sino linguistics) は、中国語における38Kの最小文対を9つの高水準言語現象に分類する。
Sling 上で 18 個の事前訓練された単言語 (BERT-base-zh など) とマルチ言語 (mT5 や XLM など) の言語モデルをテストする。
実験の結果, LMの平均精度は人的性能(69.7%対97.1%)よりはるかに低いが, BERT-base-zhは試験されたLMの最大精度(84.8%)を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-21T02:29:39Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。