論文の概要: MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts
- arxiv url: http://arxiv.org/abs/2403.10568v2
- Date: Wed, 11 Sep 2024 09:19:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 21:32:34.748637
- Title: MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts
- Title(参考訳): MoPE: プロンプトエキスパートの混在によるパラメータ効率とスケーラブルなマルチモーダルフュージョン
- Authors: Ruixiang Jiang, Lingbo Liu, Changwen Chen,
- Abstract要約: 本稿では,プロンプトチューニングの表現性を高めるために,プロンプトエキスパート(MoPE)技法の混合を導入する。
本手法は, ファインチューニングの性能を即時融合, マッチング, あるいは超越する技術結果を得る。
- 参考スコア(独自算出の注目度): 29.46189153751869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the demonstrated parameter efficiency of prompt-based multimodal fusion methods, their limited adaptivity and expressiveness often result in suboptimal performance compared to other tuning approaches. In this paper, we address these limitations by decomposing the vanilla prompts to adaptively capture instance-level features. Building upon this decomposition, we introduce the mixture of prompt experts (MoPE) technique to enhance the expressiveness of prompt tuning. MoPE leverages multimodal pairing priors to route the most effective prompt on a per-instance basis. Compared to vanilla prompting, our MoPE-based fusion method exhibits greater expressiveness, scaling more effectively with the training data and the overall number of trainable parameters. We also investigate regularization terms for expert routing, which lead to emergent expert specialization during training, paving the way for interpretable soft prompting. Extensive experiments across six multimodal datasets spanning four modalities demonstrate that our method achieves state-of-the-art results for prompt fusion, matching or even surpassing the performance of fine-tuning while requiring only 0.8% of the trainable parameters. Code will be released: https://github.com/songrise/MoPE.
- Abstract(参考訳): プロンプトベースのマルチモーダル融合法のパラメータ効率が証明されているにもかかわらず、それらの適応性と表現性は、他のチューニング手法と比較して、しばしば準最適性能をもたらす。
本稿では,インスタンスレベルの特徴を適応的にキャプチャするバニラプロンプトを分解することで,これらの制限に対処する。
この分解に基づいて,プロンプト・チューニングの表現性を高めるために,プロンプト・エキスパート(MoPE)技法の混合を導入する。
MoPEはマルチモーダルのペアリングに先立って、インスタンスごとに最も効果的なプロンプトをルーティングする。
バニラプロンプトと比較すると,本手法はより表現力が高く,トレーニングデータやトレーニング可能なパラメータの総数よりも効果的にスケールできる。
また,エキスパート・ルーティングの正規化条件についても検討し,訓練中のエキスパート・スペシャライゼーションを創発し,ソフト・プロンプトの解釈の道を開いた。
4つのモダリティにまたがる6つのマルチモーダルデータセットに対する大規模な実験により、我々の手法は、訓練可能なパラメータの0.8%しか必要とせず、迅速な融合、マッチング、さらには微調整の性能を超越する、最先端の結果が得られることを示した。
コードは、https://github.com/songrise/MoPE.comでリリースされる。
関連論文リスト
- Prompt Tuning Strikes Back: Customizing Foundation Models with Low-Rank Prompt Adaptation [13.325756523035245]
Low-Rank Prompt Adaptation (LOPA) は、最先端のPEFTメソッドやフル微調整と同等に動作するプロンプトチューニングベースのアプローチである。
LOPAは、インスタンス間でタスク固有の情報を共有することと、インスタンスごとのカスタマイズをバランスさせることで、ソフトプロンプトを生成する。
パラメータ効率を達成するために、各インスタンスにエンコードされたソフトプロンプトコンポーネントの低ランク分解を使用する。
論文 参考訳(メタデータ) (2024-05-24T07:11:42Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Context-PEFT: Efficient Multi-Modal, Multi-Task Fine-Tuning [12.648711621637663]
この論文は小説を紹介します。
COCO-Efficient Fine-Tuning (PEFT) framework for multi-modal, multi-task transfer learning with pre-trained language model。
トークンのドメインに基づいて異なる適応パラメータ群を学習するContext-PEFTを提案する。
提案手法はキャプションタスクで評価され、類似したデータ制約下での完全な微調整よりも優れる。
論文 参考訳(メタデータ) (2023-12-14T13:00:24Z) - Conditional Prompt Tuning for Multimodal Fusion [33.11221356852871]
パラメータ効率のよいマルチモーダル融合において、あるモーダルの表現は、他のモーダルの促進を効果的に導くことができることを示す。
これは、バニラプロンプトベクトルを3種類の特殊プロンプトに切り離して、グローバルレベルとインスタンスレベルの機能を適応的にキャプチャすることで達成される。
本手法は,下流マルチモーダルタスクに対して,単調エンコーダにおける事前学習した知識を効果的に伝達することができる。
論文 参考訳(メタデータ) (2023-11-28T11:05:20Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Prompt-Matched Semantic Segmentation [96.99924127527002]
本研究の目的は、事前学習した基礎モデルを、画像意味セグメンテーションの下流の様々なタスクに効果的に適応する方法を検討することである。
本稿では,タスク指向のチューニングに適応的に視覚的プロンプトを生成するとともに,基礎モデルの本来の構造を維持できる新しい階層間プロンプトマッチングフレームワークを提案する。
次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2つのステージ間で階層的に補間し、各タスクに対して適切なプロンプトを学習する。
論文 参考訳(メタデータ) (2022-08-22T09:12:53Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。