論文の概要: Locate-then-Merge: Neuron-Level Parameter Fusion for Mitigating Catastrophic Forgetting in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2505.16703v1
- Date: Thu, 22 May 2025 14:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.34692
- Title: Locate-then-Merge: Neuron-Level Parameter Fusion for Mitigating Catastrophic Forgetting in Multimodal LLMs
- Title(参考訳): ローカテ-テン・マージ:マルチモーダルLDMにおける破壊的投射の緩和のためのニューロンレベルパラメータフュージョン
- Authors: Zeping Yu, Sophia Ananiadou,
- Abstract要約: 本稿では,重要なパラメータを抽出し,それらを選択的にマージする学習自由パラメータ融合フレームワークを提案する。
我々は,大きなパラメータシフトを持つニューロンの影響を保ったニューロンレベルの戦略であるニューロン融合を導入する。
言語と視覚タスクの両方にわたる13のベンチマークによる実験では、Neuron-Fusionが既存のモデルマージメソッドを一貫して上回っていることが示されている。
- 参考スコア(独自算出の注目度): 19.472889262384818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although multimodal large language models (MLLMs) have achieved impressive performance, the multimodal instruction tuning stage often causes catastrophic forgetting of the base LLM's language ability, even in strong models like Llama3. To address this, we propose Locate-then-Merge, a training-free parameter fusion framework that first locates important parameters and then selectively merges them. We further introduce Neuron-Fusion, a neuron-level strategy that preserves the influence of neurons with large parameter shifts--neurons likely responsible for newly acquired visual capabilities--while attenuating the influence of neurons with smaller changes that likely encode general-purpose language skills. This design enables better retention of visual adaptation while mitigating language degradation. Experiments on 13 benchmarks across both language and visual tasks show that Neuron-Fusion consistently outperforms existing model merging methods. Further analysis reveals that our method effectively reduces context hallucination in generation.
- Abstract(参考訳): MLLM(Multimodal large language model)は印象的な性能を達成しているが、Llama3のような強力なモデルであっても、マルチモーダル命令チューニングの段階はベースLLMの言語能力を壊滅的に忘れてしまうことがしばしばある。
そこで本研究では,まず重要なパラメータを抽出し,それらを選択的にマージする,トレーニング不要なパラメータ融合フレームワークであるLocate-then-Mergeを提案する。
さらに、ニューロンレベルの戦略であるニューロニンフュージョンを導入し、大きなパラメータシフトを持つニューロンの影響を保ちながら、新たに獲得した視覚能力に寄与するニューロンの影響を減らし、汎用言語スキルをコードする可能性のある小さな変化でニューロンの影響を弱める。
この設計は、言語劣化を軽減しつつ、視覚適応の維持を向上する。
言語と視覚タスクの両方にわたる13のベンチマークによる実験では、Neuron-Fusionが既存のモデルマージメソッドを一貫して上回っていることが示されている。
さらなる分析により,本手法は生成における文脈幻覚を効果的に低減することが明らかとなった。
関連論文リスト
- LLaVA-NeuMT: Selective Layer-Neuron Modulation for Efficient Multilingual Multimodal Translation [12.51212639515934]
LLaVA-NeuMTは言語固有の表現と言語に依存しない表現を明示的にモデル化し、多言語干渉を緩和する新しいフレームワークである。
提案手法は,異なる言語対の最も情報性の高い層を識別する層選択機構から成り立っている。
我々はM3-Multi30KとM3-AmbigCapsデータセットの広範な実験を行い、LLaVA-NeuMTはモデルパラメータの40%しか微調整していないが、完全な微調整アプローチを超えていることを示した。
論文 参考訳(メタデータ) (2025-07-25T04:23:24Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - Probing Neural Topology of Large Language Models [15.34202977968525]
LLMニューロンの機能的接続トポロジーを明らかにするためのグラフ探索法を提案する。
ニューラルトポロジのみを用いて次点予測性能の普遍的予測可能性を求める。
この予測可能性は、わずか8段階の事前訓練の後、ニューロン接続のわずか1%を維持したり、モデルを探したりしても堅牢である。
論文 参考訳(メタデータ) (2025-06-01T14:57:03Z) - How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.79894853375478]
本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。
異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。
我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文 参考訳(メタデータ) (2025-05-27T17:59:52Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [49.09746599881631]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
本研究は,多言語学習モデルとの比較分析により同定された少数の臨界ニューロンの編集が,混乱を著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。
大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。
LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文 参考訳(メタデータ) (2024-09-29T02:39:42Z) - Let's Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language Model [43.107778640669544]
大型言語モデル(LLM)は、様々な行動や役割を示すニューロンで構成されている。
最近の研究によると、全てのニューロンが異なるデータセットで活動しているわけではない。
我々は,パラメータ学習の粒度を個々のニューロンに絞り込む新しいアプローチであるNeFT(Neuron-Level Fine-Tuning)を導入する。
論文 参考訳(メタデータ) (2024-03-18T09:55:01Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - NeuroPrune: A Neuro-inspired Topological Sparse Training Algorithm for Large Language Models [35.10729451729596]
自然言語処理(NLP)におけるトランスフォーマーベース言語モデルの普及
しかし、高価なトレーニングや推論は、その適用性に重大な障害となる。
脳神経ネットワークにインスパイアされた我々は、ネットワークトポロジーのレンズを通してスパーシティアプローチを探索する。
論文 参考訳(メタデータ) (2024-02-28T22:21:47Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain [12.92793034617015]
大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。
また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
論文 参考訳(メタデータ) (2024-01-31T08:48:35Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。