論文の概要: Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities
- arxiv url: http://arxiv.org/abs/2503.22517v2
- Date: Tue, 01 Apr 2025 10:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 12:09:05.647619
- Title: Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities
- Title(参考訳): エクスプロイト・オブ・エクスプロイトの冗長性によるマルチモーダル生成能力のアンロック
- Authors: Raman Dutt, Harleen Hanspal, Guoxuan Xia, Petru-Daniel Tudosiu, Alexander Black, Yongxin Yang, Steven McDonagh, Sarah Parisot,
- Abstract要約: 我々は、新しいモダリティを学ぶための追加能力の源として、Mixture-of-Experts(MoEs)内の冗長性を利用する。
我々は、新しいモダリティのトークンのみに低ランク適応を適用することで、オリジナルの言語生成能力を保ちます。
- 参考スコア(独自算出の注目度): 69.26544016976396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we undertake the challenge of augmenting the existing generative capabilities of pre-trained text-only large language models (LLMs) with multi-modal generation capability while satisfying two core constraints: C1 preserving the preservation of original language generative capabilities with negligible performance degradation, and C2 adhering to a small parameter budget to learn the new modality, ensuring scalability and efficiency. In contrast to current approaches that add dedicated modules, thereby significantly increasing the parameter count, we propose a method that leverages the underutilized capacity inherent in deep models. Specifically, we exploit the parameter redundancy within Mixture-of-Experts (MoEs) as a source of additional capacity for learning a new modality, enabling better parameter efficiency (C1). Moreover, we preserve the original language generation capabilities by applying low-rank adaptation exclusively to the tokens of the new modality (C2). Furthermore, we introduce a novel parameter initialization scheme based on the Gromov-Wasserstein distance to improve convergence and training stability. Through an extensive analysis of the routing mechanism, we uncover the emergence of modality-specific pathways and decreased redundancy within the experts that can efficiently unlock multi-modal generative capabilities. Overall, our method can be seamlessly applied to a wide range of contemporary LLMs, providing a new pathway for transitioning from uni-modal to multi-modal architectures.
- Abstract(参考訳): 本研究は,学習済みテキストのみの大規模言語モデル(LLM)の既存の生成能力を多モーダル生成能力で拡張する上での課題である。C1 は無視可能な性能劣化を伴うオリジナル言語の生成能力の保存,C2 は小さなパラメータ予算に固執し,新しいモダリティを学習し,スケーラビリティと効率性を確保することである。
専用モジュールを追加し,パラメータ数を大幅に増加させる現在のアプローチとは対照的に,深層モデルに固有の未利用能力を活用する手法を提案する。
具体的には,Mixture-of-Experts(MoEs)内のパラメータ冗長性を,新たなモダリティを学習するための追加能力の源として利用し,パラメータ効率を向上する(C1)。
さらに、新しいモダリティ(C2)のトークンのみに低ランク適応を適用することで、元の言語生成能力を保ちます。
さらに,Gromov-Wasserstein距離に基づく新しいパラメータ初期化手法を導入し,収束性とトレーニング安定性を向上させる。
ルーティング機構の広範囲な解析により,マルチモーダル生成能力を効果的に解き放つ専門家の間で,モダリティ特異的経路の出現と冗長性の低下が明らかになった。
全体として,本手法は,ユニモーダルアーキテクチャからマルチモーダルアーキテクチャへ移行するための新しい経路を提供するため,多様な現代LLMに対してシームレスに適用することができる。
関連論文リスト
- Feature Calibration enhanced Parameter Synthesis for CLIP-based Class-incremental Learning [10.253058594622017]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、モデルが従来のクラスを維持しながら、新しいクラスの知識を継続的に学習することを可能にする。
従来のCILメソッドは主に視覚的特徴に依存しており、複雑なマルチモーダルシナリオでの有効性を制限している。
モデル固有の一般化能力を保ちながら破滅的な一般化を緩和する特徴強化合成(FCPS)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T13:44:12Z) - HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding [67.24430397016275]
そこで本稿では,マルチモーダル入力を早期に融合し,自動回帰方式で視覚的指示に応答できる新しいアーリーフュージョンLMMを提案する。
提案モデルでは,1つの変圧器を用いた他のLMMと比較して優れた性能を示し,合成LMMによる性能ギャップを著しく狭めている。
論文 参考訳(メタデータ) (2025-03-12T06:01:05Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。