論文の概要: MoPE: Mixture of Prompt Experts for Parameter-Efficient and Scalable Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2403.10568v3
- Date: Tue, 14 Jan 2025 08:01:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:57.768444
- Title: MoPE: Mixture of Prompt Experts for Parameter-Efficient and Scalable Multimodal Fusion
- Title(参考訳): MoPE:パラメータ効率・拡張性多モード核融合のためのプロンプトエキスパートの混在
- Authors: Ruixiang Jiang, Lingbo Liu, Changwen Chen,
- Abstract要約: プロンプトエキスパートの混合 (Mixture of Prompt Experts, MOPE) は、標準のプロンプトを分解することで制限を克服するために設計された最初の技術である。
本手法は, トレーニングデータとトレーニング可能なパラメータの総数により, より効果的にスケールできることを示す。
- 参考スコア(独自算出の注目度): 29.46189153751869
- License:
- Abstract: Despite the demonstrated parameter efficiency of prompt-based multimodal fusion methods, their limited adaptivity and expressiveness often result in suboptimal performance compared to other tuning approaches. In this paper, we introduce the Mixture of Prompt Experts (MoPE), the first technique designed to overcome these limitations by decomposing standard prompts to capture instance-level features adaptively. Building on this decomposition, MoPE enhances prompt fusion's expressiveness by leveraging multimodal pairing priors to route the most effective prompt for each instance dynamically. Compared to vanilla prompting, our MoPE-based fusion method exhibits greater expressiveness, scaling more effectively with the training data and the overall number of trainable parameters. We also investigate regularization terms for expert routing, which lead to emergent expert specialization with enhanced adaptiveness and interpretablity. Extensive experiments across six multimodal datasets spanning four modalities demonstrate state-of-the-art performance for prompt fusion, matching or even surpassing the performance of fine-tuning while requiring only 0.8% of the trainable parameters. Project homepage: https://github.com/songrise/MoPE
- Abstract(参考訳): プロンプトベースのマルチモーダル融合法のパラメータ効率が証明されているにもかかわらず、それらの適応性と表現性は、他のチューニング手法と比較して、しばしば準最適性能をもたらす。
本稿では、標準プロンプトを分解してインスタンスレベルの機能を適応的にキャプチャすることで、これらの制限を克服する最初の手法であるMixture of Prompt Experts(MoPE)を紹介する。
この分解に基づいて、MoPEは、各インスタンスに対して最も効果的なプロンプトを動的にルーティングするために、マルチモーダルペアの事前利用により、プロンプト融合の表現性を高める。
バニラプロンプトと比較すると,本手法はより表現力が高く,トレーニングデータやトレーニング可能なパラメータの総数よりも効果的にスケールできる。
また、エキスパートルーティングの規則化用語についても検討し、適応性と解釈性を向上した創発的な専門家の専門化につながった。
4つのモダリティにまたがる6つのマルチモーダルデータセットにわたる大規模な実験は、訓練可能なパラメータの0.8%しか必要とせず、迅速な融合、マッチング、さらには微調整のパフォーマンスを上回る最先端のパフォーマンスを示す。
プロジェクトホームページ:https://github.com/songrise/MoPE
関連論文リスト
- QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - SuperPos-Prompt: Enhancing Soft Prompt Tuning of Language Models with Superposition of Multi Token Embeddings [0.7349727826230863]
事前訓練された言語モデルのパラメータ効率チューニングに有効な手法として,ソフトプロンプトチューニング技術が注目を集めている。
ソフトプロンプトの学習を改善するために,複数の事前学習語彙の埋め込みを重畳した新しい再パラメータ化手法であるSuperPos-Promptを導入する。
我々の実験は、Residual Promptチューニングに対するSuperPos-Promptの優位性を常に強調しており、平均スコアはT5-Smallで$6.4$、T5-Baseで$5.0$である。
驚くべきことに、SuperPos-Promptは時々、完全な微調整方法よりも優れています。
論文 参考訳(メタデータ) (2024-06-07T22:18:49Z) - On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning? [13.803180972839213]
テスト時間拡張(MTA)のための堅牢な平均シフトを導入する。
MTAは、この集中的なトレーニング手順を必要とせずに、プロンプトベースの手法を超える。
提案手法を15のデータセット上で広範囲にベンチマークし,MTAの優位性と計算効率を実証する。
論文 参考訳(メタデータ) (2024-05-03T17:34:02Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Conditional Prompt Tuning for Multimodal Fusion [33.11221356852871]
パラメータ効率のよいマルチモーダル融合において、あるモーダルの表現は、他のモーダルの促進を効果的に導くことができることを示す。
これは、バニラプロンプトベクトルを3種類の特殊プロンプトに切り離して、グローバルレベルとインスタンスレベルの機能を適応的にキャプチャすることで達成される。
本手法は,下流マルチモーダルタスクに対して,単調エンコーダにおける事前学習した知識を効果的に伝達することができる。
論文 参考訳(メタデータ) (2023-11-28T11:05:20Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。