論文の概要: Multi-Modality Expansion and Retention for LLMs through Parameter Merging and Decoupling
- arxiv url: http://arxiv.org/abs/2505.17110v1
- Date: Wed, 21 May 2025 12:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.573892
- Title: Multi-Modality Expansion and Retention for LLMs through Parameter Merging and Decoupling
- Title(参考訳): パラメータマージとデカップリングによるLLMの多モード展開と保持
- Authors: Junlin Li, Guodong DU, Jing Li, Sim Kuan Goh, Wenya Wang, Yequan Wang, Fangming Liu, Ho-Kin Tang, Saleh Alharbi, Daojing He, Min Zhang,
- Abstract要約: MMERは既存のMLLMを統合し、元の性能を維持しながら効果的なマルチモーダル展開を行う。
MMERは、新しいタスクで微調整されたMLLMに同様のプロセスを適用することで、破滅的な忘れを軽減できる。
- 参考スコア(独自算出の注目度): 33.90190836855285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning Large Language Models (LLMs) with multimodal encoders on modality-specific data expands the modalities that LLMs can handle, leading to the formation of Multimodal LLMs (MLLMs). However, this paradigm heavily relies on resource-intensive and inflexible fine-tuning from scratch with new multimodal data. In this paper, we propose MMER (Multi-modality Expansion and Retention), a training-free approach that integrates existing MLLMs for effective multimodal expansion while retaining their original performance. Specifically, MMER reuses MLLMs' multimodal encoders while merging their LLM parameters. By comparing original and merged LLM parameters, MMER generates binary masks to approximately separate LLM parameters for each modality. These decoupled parameters can independently process modality-specific inputs, reducing parameter conflicts and preserving original MLLMs' fidelity. MMER can also mitigate catastrophic forgetting by applying a similar process to MLLMs fine-tuned on new tasks. Extensive experiments show significant improvements over baselines, proving that MMER effectively expands LLMs' multimodal capabilities while retaining 99% of the original performance, and also markedly mitigates catastrophic forgetting.
- Abstract(参考訳): マルチモーダルエンコーダを用いた細調整大型言語モデル(LLM)は、LLMが扱えるモダリティを拡張し、マルチモーダルLLM(MLLM)を形成する。
しかし、このパラダイムは、新しいマルチモーダルデータとスクラッチからのリソース集約的で柔軟性のない微調整に大きく依存している。
本稿では,MMER(Multi-modality Expansion and Retention)を提案する。Multi-modality Expansion and Retentionは,既存のMLLMを統合して,本来の性能を維持しつつ,効果的なマルチモーダル展開を実現する。
具体的には、MMERはMLLMのマルチモーダルエンコーダを再利用し、LLMパラメータをマージする。
MMERは、元のLLMパラメータとマージされたLLMパラメータを比較して、各モードごとにほぼ別々のLLMパラメータにバイナリマスクを生成する。
これらの分離されたパラメータは、独立にモダリティ固有の入力を処理し、パラメータの衝突を減らし、元のMLLMの忠実さを保存する。
MMERは、新しいタスクで微調整されたMLLMに同様のプロセスを適用することで、破滅的な忘れを軽減できる。
大規模な実験はベースラインよりも大幅に改善され、MMERはLLMのマルチモーダル能力を効果的に拡張し、元の性能の99%を維持し、また破滅的な忘れ込みを著しく軽減することを示した。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs [3.450141240227484]
大規模言語モデル(LLM)の任意の精度量子化のための軽量な手法を提案する。
我々のソリューションは、複数の異なるサイズのLCMをデプロイする際のコストを大幅に削減します。
ビット幅の異なる全てのLLMは、最先端のモデル品質と推論スループットを示している。
論文 参考訳(メタデータ) (2024-02-16T09:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。