論文の概要: From Neurons to Semantics: Evaluating Cross-Linguistic Alignment Capabilities of Large Language Models via Neurons Alignment
- arxiv url: http://arxiv.org/abs/2507.14900v2
- Date: Wed, 23 Jul 2025 14:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 12:00:05.657897
- Title: From Neurons to Semantics: Evaluating Cross-Linguistic Alignment Capabilities of Large Language Models via Neurons Alignment
- Title(参考訳): ニューロンからセマンティックスへ:ニューロンアライメントによる大言語モデルの言語横断アライメント能力の評価
- Authors: Chongxuan Huang, Yongshi Ye, Biao Fu, Qifeng Su, Xiaodong Shi,
- Abstract要約: 既存のアライメントベンチマークは主に文の埋め込みに焦点を当てている。
以前の研究では、ニューラルモデルが非滑らかな表現空間を誘導する傾向があることが示されている。
類似した情報が重なり合うニューロン領域を活性化する神経科学的な知見に着想を得て,我々は新しいニューロン状態に基づく言語横断アライメントを提案する。
- 参考スコア(独自算出の注目度): 8.071522960337298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable multilingual capabilities, however, how to evaluate cross-lingual alignment remains underexplored. Existing alignment benchmarks primarily focus on sentence embeddings, but prior research has shown that neural models tend to induce a non-smooth representation space, which impact of semantic alignment evaluation on low-resource languages. Inspired by neuroscientific findings that similar information activates overlapping neuronal regions, we propose a novel Neuron State-Based Cross-Lingual Alignment (NeuronXA) to assess the cross-lingual a lignment capabilities of LLMs, which offers a more semantically grounded approach to assess cross-lingual alignment. We evaluate NeuronXA on several prominent multilingual LLMs (LLaMA, Qwen, Mistral, GLM, and OLMo) across two transfer tasks and three multilingual benchmarks. The results demonstrate that with only 100 parallel sentence pairs, NeuronXA achieves a Pearson correlation of 0.9556 with downstream tasks performance and 0.8514 with transferability. These findings demonstrate NeuronXA's effectiveness in assessing both cross-lingual alignment and transferability, even with a small dataset. This highlights its potential to advance cross-lingual alignment research and to improve the semantic understanding of multilingual LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい多言語機能を示しているが、言語間アライメントの評価方法はまだ未検討である。
既存のアライメントベンチマークは主に文の埋め込みに焦点を当てているが、以前の研究では、ニューラルネットワークが非滑らかな表現空間を誘導する傾向があることが示されており、これは低リソース言語に対するセマンティックアライメントの評価に影響している。
類似した情報が重なり合うニューロン領域を活性化するという神経科学的な知見に触発されて,我々は,LLMの言語横断的アライメント能力を評価する新しいニューロン状態ベースのクロスリンガルアライメント(NeuronXA)を提案する。
我々は2つのトランスファータスクと3つのマルチリンガルベンチマークで、複数の著名な多言語LLM(LLaMA, Qwen, Mistral, GLM, OLMo)上でNeuronXAを評価した。
結果は,100対のパラレル文ペアのみを用いて,Pearsonと下流タスクのパフォーマンスは0.9556,転送性は0.8514であることを示した。
これらの結果は、小さなデータセットであっても、言語間アライメントと転送性の両方を評価するのにNeuronXAの有効性を示している。
このことは、言語間アライメントの研究を進め、多言語LLMの意味的理解を改善する可能性を強調している。
関連論文リスト
- LLaVA-NeuMT: Selective Layer-Neuron Modulation for Efficient Multilingual Multimodal Translation [12.51212639515934]
LLaVA-NeuMTは言語固有の表現と言語に依存しない表現を明示的にモデル化し、多言語干渉を緩和する新しいフレームワークである。
提案手法は,異なる言語対の最も情報性の高い層を識別する層選択機構から成り立っている。
我々はM3-Multi30KとM3-AmbigCapsデータセットの広範な実験を行い、LLaVA-NeuMTはモデルパラメータの40%しか微調整していないが、完全な微調整アプローチを超えていることを示した。
論文 参考訳(メタデータ) (2025-07-25T04:23:24Z) - How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。
異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。
我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文 参考訳(メタデータ) (2025-05-27T17:59:52Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [49.09746599881631]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
本研究は,多言語学習モデルとの比較分析により同定された少数の臨界ニューロンの編集が,混乱を著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Language-specific Neurons Do Not Facilitate Cross-Lingual Transfer [21.205821852762362]
言語固有のニューロンを識別する既存の技術は、低リソース言語の言語間タスク性能を向上させるために利用することができる。
このようなニューロン特異的な介入は、下流タスクにおいて言語横断的な改善をもたらすには不十分である。
論文 参考訳(メタデータ) (2025-03-21T18:08:11Z) - Exploring Cross-lingual Latent Transplantation: Mutual Opportunities and Open Challenges [48.96952594416528]
現在の大規模言語モデル(LLM)は多言語能力と文化的適応性に不均衡を示すことが多い。
XTransplantフレームワークは、言語間で潜在的なアクティベーションを移植することで、英語と非英語のリソースの相補的な長所を利用することができる。
論文 参考訳(メタデータ) (2024-12-17T09:05:30Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Probing the Emergence of Cross-lingual Alignment during LLM Training [10.053333786023089]
多言語大言語モデル(LLM)は、ゼロショットの多言語間転送性能を著しく向上させる。
本研究では,LLMの事前学習において,このような言語間アライメントがどのように出現するかを検討する。
ニューロンの重なり合いと下流性能の相関関係を観察する。
論文 参考訳(メタデータ) (2024-06-19T05:31:59Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - The Impact of Cross-Lingual Adjustment of Contextual Word
Representations on Zero-Shot Transfer [3.300216758849348]
mBERTやXLM-Rのような大規模な多言語言語モデルは、様々なIRやNLPタスクにおいてゼロショットの言語間転送を可能にする。
そこで本研究では,mBERTの並列コーパスを用いた言語間相互調整のためのデータ・計算効率向上手法を提案する。
類型的に多様な言語(スペイン語、ロシア語、ベトナム語、ヒンディー語)を実験し、その実装を新しいタスクに拡張する。
NER, XSR, 言語間QAを改良した4言語でのNLIの再生ゲインについて検討した。
論文 参考訳(メタデータ) (2022-04-13T15:28:43Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。