論文の概要: Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning
- arxiv url: http://arxiv.org/abs/2503.20633v1
- Date: Wed, 26 Mar 2025 15:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:10.232640
- Title: Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning
- Title(参考訳): ファインチューニングのための不均一MOEアダプタを用いたマルチモーダルモデルの強化
- Authors: Sashuai Zhou, Hai Huang, Yan Xia,
- Abstract要約: マルチモーダルモデルはクロスモーダルなタスクでは優れているが、数十億のパラメータのために計算コストが高い。
既存の手法は主にユニモーダル処理に重点を置いており、マルチモーダルタスクに必要な重要なモーダル融合を見越している。
我々は,従来のPEFTフレームワークを拡張して,マルチモーダルな専門家の組み合わせをサポートし,情報インタラクションを改善する専門家の混在を提案する。
- 参考スコア(独自算出の注目度): 3.8984478257737734
- License:
- Abstract: Multi-modal models excel in cross-modal tasks but are computationally expensive due to their billions of parameters. Parameter-efficient fine-tuning (PEFT) offers a solution by adding small trainable components while freezing pre-trained parameters. However, existing methods primarily focus on uni-modal processing, overlooking the critical modal fusion needed for multi-modal tasks. To fill this gap, we propose heterogeneous mixture of experts adapters that extend the traditional PEFT framework to support multi-modal expert combinations and improve information interaction. Additionally, our approach modifies the affine linear expert design to enable efficient modal fusion in a low-rank space, achieving competitive performance with only 5-8\% of the parameters fine-tuned. Experiments across eight downstream tasks, including visual-audio and text-visual, demonstrate the superior performance of the approach.
- Abstract(参考訳): マルチモーダルモデルはクロスモーダルなタスクでは優れているが、数十億のパラメータのために計算コストが高い。
パラメータ効率の細かいチューニング(PEFT)は、トレーニング済みのパラメータを凍結しながら、小さなトレーニング可能なコンポーネントを追加することでソリューションを提供する。
しかし、既存の手法は主にユニモーダル処理に重点を置いており、マルチモーダルタスクに必要な重要なモーダル融合を見越している。
このギャップを埋めるために,従来のPEFTフレームワークを拡張して,マルチモーダルな専門家の組み合わせをサポートし,情報インタラクションを改善する,異種なエキスパートアダプタを提案する。
さらに,本手法はアフィン線形エキスパート設計を改良し,低ランク空間での効率的なモーダル融合を実現し,パラメータの5~8倍の精度で競合性能を実現する。
視覚音響とテキスト視覚を含む8つの下流タスクに対する実験は、このアプローチの優れたパフォーマンスを示す。
関連論文リスト
- M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts [6.245113492272563]
Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。
我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
論文 参考訳(メタデータ) (2024-08-02T18:05:10Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - MoPE: Mixture of Prompt Experts for Parameter-Efficient and Scalable Multimodal Fusion [29.46189153751869]
プロンプトエキスパートの混合 (Mixture of Prompt Experts, MOPE) は、標準のプロンプトを分解することで制限を克服するために設計された最初の技術である。
本手法は, トレーニングデータとトレーニング可能なパラメータの総数により, より効果的にスケールできることを示す。
論文 参考訳(メタデータ) (2024-03-14T17:47:10Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Modular and Parameter-Efficient Multimodal Fusion with Prompting [4.2854066077037265]
提案手法は,低リソース環境下でのマルチモーダル融合法に匹敵する性能を実現する。
本手法は,2つ以上のデータモダリティを含むタスクの処理において,モジュール構造であり,パラメータ効率が高い。
論文 参考訳(メタデータ) (2022-03-15T16:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。