論文の概要: Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities
- arxiv url: http://arxiv.org/abs/2503.22517v2
- Date: Tue, 01 Apr 2025 10:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 10:23:45.760795
- Title: Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities
- Title(参考訳): エクスプロイト・オブ・エクスプロイトの冗長性によるマルチモーダル生成能力のアンロック
- Authors: Raman Dutt, Harleen Hanspal, Guoxuan Xia, Petru-Daniel Tudosiu, Alexander Black, Yongxin Yang, Steven McDonagh, Sarah Parisot,
- Abstract要約: 我々は、新しいモダリティを学ぶための追加能力の源として、Mixture-of-Experts(MoEs)内の冗長性を利用する。
我々は、新しいモダリティのトークンのみに低ランク適応を適用することで、オリジナルの言語生成能力を保ちます。
- 参考スコア(独自算出の注目度): 69.26544016976396
- License:
- Abstract: In this work, we undertake the challenge of augmenting the existing generative capabilities of pre-trained text-only large language models (LLMs) with multi-modal generation capability while satisfying two core constraints: C1 preserving the preservation of original language generative capabilities with negligible performance degradation, and C2 adhering to a small parameter budget to learn the new modality, ensuring scalability and efficiency. In contrast to current approaches that add dedicated modules, thereby significantly increasing the parameter count, we propose a method that leverages the underutilized capacity inherent in deep models. Specifically, we exploit the parameter redundancy within Mixture-of-Experts (MoEs) as a source of additional capacity for learning a new modality, enabling better parameter efficiency (C1). Moreover, we preserve the original language generation capabilities by applying low-rank adaptation exclusively to the tokens of the new modality (C2). Furthermore, we introduce a novel parameter initialization scheme based on the Gromov-Wasserstein distance to improve convergence and training stability. Through an extensive analysis of the routing mechanism, we uncover the emergence of modality-specific pathways and decreased redundancy within the experts that can efficiently unlock multi-modal generative capabilities. Overall, our method can be seamlessly applied to a wide range of contemporary LLMs, providing a new pathway for transitioning from uni-modal to multi-modal architectures.
- Abstract(参考訳): 本研究は,学習済みテキストのみの大規模言語モデル(LLM)の既存の生成能力を多モーダル生成能力で拡張する上での課題である。C1 は無視可能な性能劣化を伴うオリジナル言語の生成能力の保存,C2 は小さなパラメータ予算に固執し,新しいモダリティを学習し,スケーラビリティと効率性を確保することである。
専用モジュールを追加し,パラメータ数を大幅に増加させる現在のアプローチとは対照的に,深層モデルに固有の未利用能力を活用する手法を提案する。
具体的には,Mixture-of-Experts(MoEs)内のパラメータ冗長性を,新たなモダリティを学習するための追加能力の源として利用し,パラメータ効率を向上する(C1)。
さらに、新しいモダリティ(C2)のトークンのみに低ランク適応を適用することで、元の言語生成能力を保ちます。
さらに,Gromov-Wasserstein距離に基づく新しいパラメータ初期化手法を導入し,収束性とトレーニング安定性を向上させる。
ルーティング機構の広範囲な解析により,マルチモーダル生成能力を効果的に解き放つ専門家の間で,モダリティ特異的経路の出現と冗長性の低下が明らかになった。
全体として,本手法は,ユニモーダルアーキテクチャからマルチモーダルアーキテクチャへ移行するための新しい経路を提供するため,多様な現代LLMに対してシームレスに適用することができる。
関連論文リスト
- Retaining and Enhancing Pre-trained Knowledge in Vision-Language Models with Prompt Ensembling [5.6987175375687995]
グループワイド・プロンプト・アンサンブル(GPE)と呼ばれる新しいプロンプト・アンサンブル学習手法を提案する。
提案手法は,データ分散シフトに対するロバスト性を改善しつつ,新たなドメイン知識を取り入れたCLIPのゼロショット機能の向上を目的としている。
当社のアプローチは,ゼロショット能力を保護しながら,CLIPの適応性を最適化するため,マスク付き注意によるグループ化の促進,モデルの表現を損なうことなく,新たなドメインインサイトをシームレスに統合するための補助的なプロンプトの導入,オリジナルと新しい知識を効果的にマージするアンサンブル学習戦略の3つの戦略に基づいている。
論文 参考訳(メタデータ) (2024-12-10T00:40:31Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - A Continual Development Methodology for Large-scale Multitask Dynamic ML
Systems [2.579908688646812]
提示された研究は、MLモデルをモジュラーおよびアンバウンドアーティファクトとして定義することで、新しいML開発方法論を導入することができるという直感に基づいている。
マルチタスクMLモデルを生成するための新しい手法を,拡張とマルチタスクのシーケンスとして定義する。
これにより、サイズと計算コストが向上し、アート品質の状態を達成した124のイメージ分類タスクを共同で解決できるMLモデルが生成される。
論文 参考訳(メタデータ) (2022-09-15T14:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。