論文の概要: Locate-then-Merge: Neuron-Level Parameter Fusion for Mitigating Catastrophic Forgetting in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2505.16703v1
- Date: Thu, 22 May 2025 14:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.34692
- Title: Locate-then-Merge: Neuron-Level Parameter Fusion for Mitigating Catastrophic Forgetting in Multimodal LLMs
- Title(参考訳): ローカテ-テン・マージ:マルチモーダルLDMにおける破壊的投射の緩和のためのニューロンレベルパラメータフュージョン
- Authors: Zeping Yu, Sophia Ananiadou,
- Abstract要約: 本稿では,重要なパラメータを抽出し,それらを選択的にマージする学習自由パラメータ融合フレームワークを提案する。
我々は,大きなパラメータシフトを持つニューロンの影響を保ったニューロンレベルの戦略であるニューロン融合を導入する。
言語と視覚タスクの両方にわたる13のベンチマークによる実験では、Neuron-Fusionが既存のモデルマージメソッドを一貫して上回っていることが示されている。
- 参考スコア(独自算出の注目度): 19.472889262384818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although multimodal large language models (MLLMs) have achieved impressive performance, the multimodal instruction tuning stage often causes catastrophic forgetting of the base LLM's language ability, even in strong models like Llama3. To address this, we propose Locate-then-Merge, a training-free parameter fusion framework that first locates important parameters and then selectively merges them. We further introduce Neuron-Fusion, a neuron-level strategy that preserves the influence of neurons with large parameter shifts--neurons likely responsible for newly acquired visual capabilities--while attenuating the influence of neurons with smaller changes that likely encode general-purpose language skills. This design enables better retention of visual adaptation while mitigating language degradation. Experiments on 13 benchmarks across both language and visual tasks show that Neuron-Fusion consistently outperforms existing model merging methods. Further analysis reveals that our method effectively reduces context hallucination in generation.
- Abstract(参考訳): MLLM(Multimodal large language model)は印象的な性能を達成しているが、Llama3のような強力なモデルであっても、マルチモーダル命令チューニングの段階はベースLLMの言語能力を壊滅的に忘れてしまうことがしばしばある。
そこで本研究では,まず重要なパラメータを抽出し,それらを選択的にマージする,トレーニング不要なパラメータ融合フレームワークであるLocate-then-Mergeを提案する。
さらに、ニューロンレベルの戦略であるニューロニンフュージョンを導入し、大きなパラメータシフトを持つニューロンの影響を保ちながら、新たに獲得した視覚能力に寄与するニューロンの影響を減らし、汎用言語スキルをコードする可能性のある小さな変化でニューロンの影響を弱める。
この設計は、言語劣化を軽減しつつ、視覚適応の維持を向上する。
言語と視覚タスクの両方にわたる13のベンチマークによる実験では、Neuron-Fusionが既存のモデルマージメソッドを一貫して上回っていることが示されている。
さらなる分析により,本手法は生成における文脈幻覚を効果的に低減することが明らかとなった。
関連論文リスト
- Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [49.09746599881631]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
本研究は,多言語学習モデルとの比較分析により同定された少数の臨界ニューロンの編集が,混乱を著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Let's Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language Model [43.107778640669544]
大型言語モデル(LLM)は、様々な行動や役割を示すニューロンで構成されている。
最近の研究によると、全てのニューロンが異なるデータセットで活動しているわけではない。
我々は,パラメータ学習の粒度を個々のニューロンに絞り込む新しいアプローチであるNeFT(Neuron-Level Fine-Tuning)を導入する。
論文 参考訳(メタデータ) (2024-03-18T09:55:01Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - NeuroPrune: A Neuro-inspired Topological Sparse Training Algorithm for Large Language Models [35.10729451729596]
自然言語処理(NLP)におけるトランスフォーマーベース言語モデルの普及
しかし、高価なトレーニングや推論は、その適用性に重大な障害となる。
脳神経ネットワークにインスパイアされた我々は、ネットワークトポロジーのレンズを通してスパーシティアプローチを探索する。
論文 参考訳(メタデータ) (2024-02-28T22:21:47Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain [12.92793034617015]
大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。
また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
論文 参考訳(メタデータ) (2024-01-31T08:48:35Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。