論文の概要: MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts
- arxiv url: http://arxiv.org/abs/2403.10568v1
- Date: Thu, 14 Mar 2024 17:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:55:17.988848
- Title: MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts
- Title(参考訳): MoPE: プロンプトエキスパートの混在によるパラメータ効率とスケーラブルなマルチモーダルフュージョン
- Authors: Ruixiang Jiang, Lingbo Liu, Changwen Chen,
- Abstract要約: 我々は,表現力を高めるために,プロンプトエキスパート(MoPE)技法の混合を導入する。
提案手法は, ファインチューニングの性能のマッチングや超越といった, 最先端の成果を達成できる。
- 参考スコア(独自算出の注目度): 29.46189153751869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-tuning has demonstrated parameter-efficiency in fusing unimodal foundation models for multimodal tasks. However, its limited adaptivity and expressiveness lead to suboptimal performance when compared with other tuning methods. In this paper, we address this issue by disentangling the vanilla prompts to adaptively capture dataset-level and instance-level features. Building upon this disentanglement, we introduce the mixture of prompt experts (MoPE) technique to enhance expressiveness. MoPE leverages multimodal pairing priors to route the most effective prompt on a per-instance basis. Compared to vanilla prompting, our MoPE-based conditional prompting exhibits greater expressiveness for multimodal fusion, scaling better with the training data and the overall number of trainable parameters. We also study a regularization term for expert routing, leading to emergent expert specialization, where different experts focus on different concepts, enabling interpretable soft prompting. Extensive experiments across three multimodal datasets demonstrate that our method achieves state-of-the-art results, matching or even surpassing the performance of fine-tuning, while requiring only 0.8% of the trainable parameters. Code will be released: https://github.com/songrise/MoPE.
- Abstract(参考訳): Prompt-tuningは、マルチモーダルタスクのためのユニモーダル基礎モデルを融合する際のパラメータ効率を実証した。
しかし、適応性や表現性に制限があるため、他のチューニング手法と比較すると、最適以下の性能が得られる。
本稿では,バニラプロンプトをアンタングルにして,データセットレベルの特徴とインスタンスレベルの特徴を適応的にキャプチャすることで,この問題に対処する。
そこで本研究では, 表現力を高めるために, プロンプト専門家(MoPE)のテクニックを混合して導入する。
MoPEはマルチモーダルのペアリングに先立って、インスタンスごとに最も効果的なプロンプトをルーティングする。
バニラプロンプトと比較すると,MoPEをベースとした条件付きプロンプトは,マルチモーダル核融合の表現性が高く,トレーニングデータやトレーニング可能なパラメータの総数にも優れていた。
我々はまた、専門家ルーティングの正規化用語も研究し、異なる専門家が異なる概念にフォーカスし、解釈可能なソフトプロンプトを可能にする創発的な専門家専門化につながった。
3つのマルチモーダルデータセットにまたがる広範囲な実験により、トレーニング可能なパラメータのわずか0.8%を必要としながら、我々の手法は最先端の結果を達成し、微調整のパフォーマンスを一致または超過することさえ示している。
コードは、https://github.com/songrise/MoPE.comでリリースされる。
関連論文リスト
- QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - SuperPos-Prompt: Enhancing Soft Prompt Tuning of Language Models with Superposition of Multi Token Embeddings [0.7349727826230863]
事前訓練された言語モデルのパラメータ効率チューニングに有効な手法として,ソフトプロンプトチューニング技術が注目を集めている。
ソフトプロンプトの学習を改善するために,複数の事前学習語彙の埋め込みを重畳した新しい再パラメータ化手法であるSuperPos-Promptを導入する。
我々の実験は、Residual Promptチューニングに対するSuperPos-Promptの優位性を常に強調しており、平均スコアはT5-Smallで$6.4$、T5-Baseで$5.0$である。
驚くべきことに、SuperPos-Promptは時々、完全な微調整方法よりも優れています。
論文 参考訳(メタデータ) (2024-06-07T22:18:49Z) - On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning? [13.803180972839213]
テスト時間拡張(MTA)のための堅牢な平均シフトを導入する。
MTAは、この集中的なトレーニング手順を必要とせずに、プロンプトベースの手法を超える。
提案手法を15のデータセット上で広範囲にベンチマークし,MTAの優位性と計算効率を実証する。
論文 参考訳(メタデータ) (2024-05-03T17:34:02Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Conditional Prompt Tuning for Multimodal Fusion [33.11221356852871]
パラメータ効率のよいマルチモーダル融合において、あるモーダルの表現は、他のモーダルの促進を効果的に導くことができることを示す。
これは、バニラプロンプトベクトルを3種類の特殊プロンプトに切り離して、グローバルレベルとインスタンスレベルの機能を適応的にキャプチャすることで達成される。
本手法は,下流マルチモーダルタスクに対して,単調エンコーダにおける事前学習した知識を効果的に伝達することができる。
論文 参考訳(メタデータ) (2023-11-28T11:05:20Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。