論文の概要: MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts
- arxiv url: http://arxiv.org/abs/2403.10568v1
- Date: Thu, 14 Mar 2024 17:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:55:17.988848
- Title: MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts
- Title(参考訳): MoPE: プロンプトエキスパートの混在によるパラメータ効率とスケーラブルなマルチモーダルフュージョン
- Authors: Ruixiang Jiang, Lingbo Liu, Changwen Chen,
- Abstract要約: 我々は,表現力を高めるために,プロンプトエキスパート(MoPE)技法の混合を導入する。
提案手法は, ファインチューニングの性能のマッチングや超越といった, 最先端の成果を達成できる。
- 参考スコア(独自算出の注目度): 29.46189153751869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-tuning has demonstrated parameter-efficiency in fusing unimodal foundation models for multimodal tasks. However, its limited adaptivity and expressiveness lead to suboptimal performance when compared with other tuning methods. In this paper, we address this issue by disentangling the vanilla prompts to adaptively capture dataset-level and instance-level features. Building upon this disentanglement, we introduce the mixture of prompt experts (MoPE) technique to enhance expressiveness. MoPE leverages multimodal pairing priors to route the most effective prompt on a per-instance basis. Compared to vanilla prompting, our MoPE-based conditional prompting exhibits greater expressiveness for multimodal fusion, scaling better with the training data and the overall number of trainable parameters. We also study a regularization term for expert routing, leading to emergent expert specialization, where different experts focus on different concepts, enabling interpretable soft prompting. Extensive experiments across three multimodal datasets demonstrate that our method achieves state-of-the-art results, matching or even surpassing the performance of fine-tuning, while requiring only 0.8% of the trainable parameters. Code will be released: https://github.com/songrise/MoPE.
- Abstract(参考訳): Prompt-tuningは、マルチモーダルタスクのためのユニモーダル基礎モデルを融合する際のパラメータ効率を実証した。
しかし、適応性や表現性に制限があるため、他のチューニング手法と比較すると、最適以下の性能が得られる。
本稿では,バニラプロンプトをアンタングルにして,データセットレベルの特徴とインスタンスレベルの特徴を適応的にキャプチャすることで,この問題に対処する。
そこで本研究では, 表現力を高めるために, プロンプト専門家(MoPE)のテクニックを混合して導入する。
MoPEはマルチモーダルのペアリングに先立って、インスタンスごとに最も効果的なプロンプトをルーティングする。
バニラプロンプトと比較すると,MoPEをベースとした条件付きプロンプトは,マルチモーダル核融合の表現性が高く,トレーニングデータやトレーニング可能なパラメータの総数にも優れていた。
我々はまた、専門家ルーティングの正規化用語も研究し、異なる専門家が異なる概念にフォーカスし、解釈可能なソフトプロンプトを可能にする創発的な専門家専門化につながった。
3つのマルチモーダルデータセットにまたがる広範囲な実験により、トレーニング可能なパラメータのわずか0.8%を必要としながら、我々の手法は最先端の結果を達成し、微調整のパフォーマンスを一致または超過することさえ示している。
コードは、https://github.com/songrise/MoPE.comでリリースされる。
関連論文リスト
- EPE-P: Evidence-based Parameter-efficient Prompting for Multimodal Learning with Missing Modalities [20.991711160707755]
モダリティの欠如は、実世界のマルチモーダル学習シナリオにおいて、トレーニングとテストの両方で発生する一般的な課題である。
欠落したモダリティを管理する既存の方法は、しばしば各モダリティや欠落したケースに対して別々のプロンプトを設計する必要がある。
我々はエビデンスに基づくエビデンスを提案する。
事前学習型マルチモーダルネットワークのための新規かつパラメータ効率の高い手法EPE-P。
論文 参考訳(メタデータ) (2024-12-23T16:01:12Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - SuperPos-Prompt: Enhancing Soft Prompt Tuning of Language Models with Superposition of Multi Token Embeddings [0.7349727826230863]
事前訓練された言語モデルのパラメータ効率チューニングに有効な手法として,ソフトプロンプトチューニング技術が注目を集めている。
ソフトプロンプトの学習を改善するために,複数の事前学習語彙の埋め込みを重畳した新しい再パラメータ化手法であるSuperPos-Promptを導入する。
我々の実験は、Residual Promptチューニングに対するSuperPos-Promptの優位性を常に強調しており、平均スコアはT5-Smallで$6.4$、T5-Baseで$5.0$である。
驚くべきことに、SuperPos-Promptは時々、完全な微調整方法よりも優れています。
論文 参考訳(メタデータ) (2024-06-07T22:18:49Z) - Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer Models [33.834215393960605]
本稿では,トランスフォーマーに基づく基礎モデルのトレーニングと推論の効率を高めるために,DynMoE(Dynamic Mixture of Experts)技術を導入する。
DynMoEには、各トークンがアクティベートする専門家の数を自動的に決定できる新しいゲーティングメソッドが組み込まれている。
本研究は,視覚・言語タスクにおけるGMoEと視覚言語タスクにおけるMoE-LLaVAとの競合性能を比較検討した。
論文 参考訳(メタデータ) (2024-05-23T08:18:30Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Conditional Prompt Tuning for Multimodal Fusion [33.11221356852871]
パラメータ効率のよいマルチモーダル融合において、あるモーダルの表現は、他のモーダルの促進を効果的に導くことができることを示す。
これは、バニラプロンプトベクトルを3種類の特殊プロンプトに切り離して、グローバルレベルとインスタンスレベルの機能を適応的にキャプチャすることで達成される。
本手法は,下流マルチモーダルタスクに対して,単調エンコーダにおける事前学習した知識を効果的に伝達することができる。
論文 参考訳(メタデータ) (2023-11-28T11:05:20Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。