論文の概要: Language-Specific Layer Matters: Efficient Multilingual Enhancement for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.18381v1
- Date: Mon, 25 Aug 2025 18:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.54586
- Title: Language-Specific Layer Matters: Efficient Multilingual Enhancement for Large Vision-Language Models
- Title(参考訳): 言語特化層:大規模視覚言語モデルの効率的な多言語拡張
- Authors: Yuchun Fan, Yilin Wang, Yongyu Mu, Lei Huang, Bei Li, Xiaocheng Feng, Tong Xiao, Jingbo Zhu,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する能力を示す。
本研究では,LVLMの多言語理解能力と浅い層における言語特異的ニューロン活性化の関連性を明らかにする。
精密LAnguage-Specific 層ファインチューニングによるLVLMの多言語化を実現する学習レシピ PLAST を紹介する。
- 参考スコア(独自算出の注目度): 60.39744129890118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have demonstrated exceptional capabilities in understanding visual information with human languages but also exhibit an imbalance in multilingual capabilities. In this work, we delve into the multilingual working pattern of LVLMs and identify a salient correlation between the multilingual understanding ability of LVLMs and language-specific neuron activations in shallow layers. Building on this insight, we introduce PLAST, a training recipe that achieves efficient multilingual enhancement for LVLMs by Precise LAnguage-Specific layers fine-Tuning. PLAST first identifies layers involved in multilingual understanding by monitoring language-specific neuron activations. These layers are then precisely fine-tuned with question-translation pairs to achieve multilingual alignment. Our empirical results on MM-Bench and MMMB demonstrate that PLAST effectively improves the multilingual capabilities of LVLMs and achieves significant efficiency with only 14% of the parameters tuned. Further analysis reveals that PLAST can be generalized to low-resource and complex visual reasoning tasks, facilitating the language-specific visual information engagement in shallow layers.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解するのに異常な能力を示したが、多言語能力のバランスが取れなかった。
本研究では,LVLMの多言語作業パターンを探索し,LVLMの多言語理解能力と浅い層における言語特異的ニューロン活性化との健全な相関関係を明らかにする。
この知見に基づいて,精密なLanguage-Specific層によるLVLMの多言語化を実現する学習レシピPLASTを紹介する。
PLASTはまず、言語特異的ニューロン活性化を監視することにより、多言語理解に関わるレイヤを識別する。
これらの層は、多言語アライメントを達成するために、質問-翻訳ペアで正確に微調整される。
MM-Bench と MMMB の実証実験の結果,PLAST は LVLM の多言語的性能を効果的に向上し,パラメータの14% しか調整されず,高い効率で実現可能であることが示された。
さらなる分析により、PLASTは低リソースで複雑な視覚推論タスクに一般化することができ、浅い層での言語固有の視覚情報エンゲージメントを容易にすることが判明した。
関連論文リスト
- Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Unraveling Babel: Exploring Multilingual Activation Patterns of LLMs and Their Applications [24.18102112644796]
本研究では,多言語処理における大言語モデル(LLM)の内部ニューロン活性化パターンについて検討した。
専門家のアクティベーション周波数の差を利用してスパースアクティベーションとプルーニングを誘導する。
本研究は,スパースアクティベーションやモデルプルーニングなどの応用に新たな視点を提供する。
論文 参考訳(メタデータ) (2024-02-26T07:44:56Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。