論文の概要: Linguistic Neuron Overlap Patterns to Facilitate Cross-lingual Transfer on Low-resource Languages
- arxiv url: http://arxiv.org/abs/2508.17078v1
- Date: Sat, 23 Aug 2025 16:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.328927
- Title: Linguistic Neuron Overlap Patterns to Facilitate Cross-lingual Transfer on Low-resource Languages
- Title(参考訳): 低音源言語における言語間移動を支援する言語ニューロンオーバーラップパターン
- Authors: Yuemei Xu, Kexin Xu, Jian Zhou, Ling Hu, Lin Gui,
- Abstract要約: 我々は,ゼロショット言語間インコンテキスト学習を改善するための,シンプルで効果的な方法であるBridgeX-ICLを提案する。
言語固有のニューロンに焦点を当てた既存の研究とは異なり、BridgeX-ICLは、共有ニューロンが言語間性能を向上させるかどうかを探求している。
我々は,LLMの内部言語スペクトルを重なり合うニューロンに基づいて定量化するためのHSICに基づく計量法を提案し,最適な橋梁選択を導出する。
- 参考スコア(独自算出の注目度): 13.053383340899067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current Large Language Models (LLMs) face significant challenges in improving performance on low-resource languages and urgently need data-efficient methods without costly fine-tuning. From the perspective of language-bridge, we propose BridgeX-ICL, a simple yet effective method to improve zero-shot Cross-lingual In-Context Learning (X-ICL) for low-resource languages. Unlike existing works focusing on language-specific neurons, BridgeX-ICL explores whether sharing neurons can improve cross-lingual performance in LLMs or not. We construct neuron probe data from the ground-truth MUSE bilingual dictionaries, and define a subset of language overlap neurons accordingly, to ensure full activation of these anchored neurons. Subsequently, we propose an HSIC-based metric to quantify LLMs' internal linguistic spectrum based on overlap neurons, which guides optimal bridge selection. The experiments conducted on 2 cross-lingual tasks and 15 language pairs from 7 diverse families (covering both high-low and moderate-low pairs) validate the effectiveness of BridgeX-ICL and offer empirical insights into the underlying multilingual mechanisms of LLMs.
- Abstract(参考訳): 現在のLarge Language Models(LLMs)は、低リソース言語のパフォーマンスを改善する上で大きな課題に直面しており、コストのかかる微調整なしに、データ効率のよいメソッドを緊急に必要としています。
言語ブリッジの観点から、低リソース言語のためのゼロショット言語間インコンテキスト学習(X-ICL)を改善するための、シンプルで効果的な方法であるBridgeX-ICLを提案する。
言語固有のニューロンに焦点を当てた既存の研究とは異なり、BridgeX-ICLは、共有ニューロンがLLMの言語間性能を改善することができるかどうかを探求している。
我々は,MUSEバイリンガル辞書からのニューロンプローブデータを構築し,言語重複ニューロンのサブセットを定義し,これらのアンカーされたニューロンの活性化を確実にする。
次に、重なり合うニューロンに基づいて、LLMの内部言語スペクトルを定量化するためのHSICに基づく計量法を提案し、最適な橋梁選択を導出する。
2つの言語間タスクと15の言語対(高低と中低の両方のペアを含む)による実験は、BridgeX-ICLの有効性を検証し、LLMの基盤となる多言語メカニズムに関する実証的な洞察を提供する。
関連論文リスト
- From Neurons to Semantics: Evaluating Cross-Linguistic Alignment Capabilities of Large Language Models via Neurons Alignment [8.071522960337298]
既存のアライメントベンチマークは主に文の埋め込みに焦点を当てている。
以前の研究では、ニューラルモデルが非滑らかな表現空間を誘導する傾向があることが示されている。
類似した情報が重なり合うニューロン領域を活性化する神経科学的な知見に着想を得て,我々は新しいニューロン状態に基づく言語横断アライメントを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:23:22Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。
異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。
我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文 参考訳(メタデータ) (2025-05-27T17:59:52Z) - Language-specific Neurons Do Not Facilitate Cross-Lingual Transfer [21.205821852762362]
言語固有のニューロンを識別する既存の技術は、低リソース言語の言語間タスク性能を向上させるために利用することができる。
このようなニューロン特異的な介入は、下流タスクにおいて言語横断的な改善をもたらすには不十分である。
論文 参考訳(メタデータ) (2025-03-21T18:08:11Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。