論文の概要: Focusing on Language: Revealing and Exploiting Language Attention Heads in Multilingual Large Language Models
- arxiv url: http://arxiv.org/abs/2511.07498v1
- Date: Wed, 12 Nov 2025 01:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.365443
- Title: Focusing on Language: Revealing and Exploiting Language Attention Heads in Multilingual Large Language Models
- Title(参考訳): 言語にフォーカスする:多言語大言語モデルにおける言語意図の探求と展開
- Authors: Xin Liu, Qiyang Song, Qihang Zhou, Haichao Du, Shaowen Xu, Wenbo Jiang, Weijuan Zhang, Xiaoqi Jia,
- Abstract要約: 大規模言語モデル(LLM)における多言語処理支援における多頭部自己注意の寄与について検討する。
LAHISをAya-23-8B、Llama-3.2-3B、Mistral-7B-v0.1に適用することにより、言語固有の頭部と言語一般の頭部の存在を明らかにする。
また,XQuADの精度を向上させるために20個の調整可能なパラメータしか必要とせず,ソフトヘッドマスクを学習して,言語頭上でのアテンション出力を変調する軽量適応も導入する。
- 参考スコア(独自算出の注目度): 8.746854869825318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly support multilingual understanding and generation. Meanwhile, efforts to interpret their internal mechanisms have emerged, offering insights to enhance multilingual performance. While multi-head self-attention (MHA) has proven critical in many areas, its role in multilingual capabilities remains underexplored. In this work, we study the contribution of MHA in supporting multilingual processing in LLMs. We propose Language Attention Head Importance Scores (LAHIS), an effective and efficient method that identifies attention head importance for multilingual capabilities via a single forward and backward pass through the LLM. Applying LAHIS to Aya-23-8B, Llama-3.2-3B, and Mistral-7B-v0.1, we reveal the existence of both language-specific and language-general heads. Language-specific heads enable cross-lingual attention transfer to guide the model toward target language contexts and mitigate off-target language generation issue, contributing to addressing challenges in multilingual LLMs. We also introduce a lightweight adaptation that learns a soft head mask to modulate attention outputs over language heads, requiring only 20 tunable parameters to improve XQuAD accuracy. Overall, our work enhances both the interpretability and multilingual capabilities of LLMs from the perspective of MHA.
- Abstract(参考訳): 大規模言語モデル(LLM)は多言語理解と生成をますますサポートしている。
一方、内部メカニズムを解釈する取り組みが出現し、多言語のパフォーマンス向上のための洞察を提供する。
多くの分野でMHA(Multi-head self-attention)が重要視されているが、多言語能力におけるその役割はいまだ解明されていない。
本研究では,LLMにおける多言語処理支援におけるMHAの貢献について検討する。
LLMを経由した単一前方及び後方通過による多言語機能に対する注目ヘッド重要度を効果的かつ効率的に識別するLanguage Attention Head Importance Scores (LAHIS)を提案する。
LAHISをAya-23-8B、Llama-3.2-3B、Mistral-7B-v0.1に適用することにより、言語固有の頭部と言語一般の頭部の存在を明らかにする。
言語固有のヘッドは、対象とする言語コンテキストに向けてモデルをガイドし、ターゲット外言語生成の問題を軽減するために言語間注目の伝達を可能にし、多言語LLMにおける課題への対処に寄与する。
また,XQuADの精度を向上させるために20個の調整可能なパラメータしか必要とせず,ソフトヘッドマスクを学習して,言語頭上でのアテンション出力を変調する軽量適応も導入する。
全体として、我々の研究は、MHAの観点から、LLMの解釈可能性と多言語能力の両方を強化する。
関連論文リスト
- Language-Specific Layer Matters: Efficient Multilingual Enhancement for Large Vision-Language Models [60.39744129890118]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する能力を示す。
本研究では,LVLMの多言語理解能力と浅い層における言語特異的ニューロン活性化の関連性を明らかにする。
精密LAnguage-Specific 層ファインチューニングによるLVLMの多言語化を実現する学習レシピ PLAST を紹介する。
論文 参考訳(メタデータ) (2025-08-25T18:15:25Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。