Fugu-MT 論文翻訳(概要): MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts

論文の概要: MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts

arxiv url: http://arxiv.org/abs/2403.10568v2
Date: Wed, 11 Sep 2024 09:19:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 21:32:34.748637
Title: MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts
Title（参考訳）: MoPE: プロンプトエキスパートの混在によるパラメータ効率とスケーラブルなマルチモーダルフュージョン
Authors: Ruixiang Jiang, Lingbo Liu, Changwen Chen,
Abstract要約: 本稿では,プロンプトチューニングの表現性を高めるために,プロンプトエキスパート(MoPE)技法の混合を導入する。本手法は, ファインチューニングの性能を即時融合, マッチング, あるいは超越する技術結果を得る。
参考スコア（独自算出の注目度）: 29.46189153751869
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the demonstrated parameter efficiency of prompt-based multimodal fusion methods, their limited adaptivity and expressiveness often result in suboptimal performance compared to other tuning approaches. In this paper, we address these limitations by decomposing the vanilla prompts to adaptively capture instance-level features. Building upon this decomposition, we introduce the mixture of prompt experts (MoPE) technique to enhance the expressiveness of prompt tuning. MoPE leverages multimodal pairing priors to route the most effective prompt on a per-instance basis. Compared to vanilla prompting, our MoPE-based fusion method exhibits greater expressiveness, scaling more effectively with the training data and the overall number of trainable parameters. We also investigate regularization terms for expert routing, which lead to emergent expert specialization during training, paving the way for interpretable soft prompting. Extensive experiments across six multimodal datasets spanning four modalities demonstrate that our method achieves state-of-the-art results for prompt fusion, matching or even surpassing the performance of fine-tuning while requiring only 0.8% of the trainable parameters. Code will be released: https://github.com/songrise/MoPE.
Abstract（参考訳）: プロンプトベースのマルチモーダル融合法のパラメータ効率が証明されているにもかかわらず、それらの適応性と表現性は、他のチューニング手法と比較して、しばしば準最適性能をもたらす。本稿では,インスタンスレベルの特徴を適応的にキャプチャするバニラプロンプトを分解することで,これらの制限に対処する。この分解に基づいて,プロンプト・チューニングの表現性を高めるために,プロンプト・エキスパート(MoPE)技法の混合を導入する。 MoPEはマルチモーダルのペアリングに先立って、インスタンスごとに最も効果的なプロンプトをルーティングする。バニラプロンプトと比較すると,本手法はより表現力が高く,トレーニングデータやトレーニング可能なパラメータの総数よりも効果的にスケールできる。また,エキスパート・ルーティングの正規化条件についても検討し,訓練中のエキスパート・スペシャライゼーションを創発し,ソフト・プロンプトの解釈の道を開いた。 4つのモダリティにまたがる6つのマルチモーダルデータセットに対する大規模な実験により、我々の手法は、訓練可能なパラメータの0.8%しか必要とせず、迅速な融合、マッチング、さらには微調整の性能を超越する、最先端の結果が得られることを示した。コードは、https://github.com/songrise/MoPE.comでリリースされる。

関連論文リスト

TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts [4.5558042369389105]
TT-LoRA MoEはトレーニングを2つの異なる最適化段階に分解する。まず、軽量かつテンソル化低ランクアダプタ(TT-LoRAエキスパート)を個別に訓練する。その後、これらの専門家アダプタは凍結状態のままであり、マルチタスク設定でタスク間干渉を排除し、忘れる。個別に訓練されたスパースMOEルータは、ベースモデル表現を動的に活用し、推論時に入力ごとに正確に1つの特別なアダプタを選択する。総合的な実験により、我々のアーキテクチャは低ランクアダプタのメモリ効率を保ち、大きなエキスパートプールにシームレスにスケールし、堅牢なタスクレベルの最適化を実現する。
論文参考訳（メタデータ） (2025-04-29T21:46:43Z)
Token-Level Prompt Mixture with Parameter-Free Routing for Federated Domain Generalization [51.562474873972086]
Federated Domain Generalization (FedDG)は、異種データを持つ分散クライアントからグローバルに一般化可能なモデルを学ぶことを目的としている。近年の研究では、単一のグローバルなプロンプトを学習することで、FedDGの視覚言語モデル(VLM)を適応させる素早い学習が導入されている。本稿では,FedDGのためのパラメータフリールーティングフレームワークであるTRIPを提案する。
論文参考訳（メタデータ） (2025-04-29T11:06:03Z)
DMPT: Decoupled Modality-aware Prompt Tuning for Multi-modal Object Re-identification [28.391851855141976]
マルチモーダルオブジェクト再識別に適した効率的なプロンプトチューニングフレームワークを提案する。我々のフレームワークはメインのバックボーンを凍結し、新たに追加された複数のモダリティ対応パラメータのみを最適化する。我々は,既存の最先端手法に対して,バックボーンパラメータの微調整を6.5%しか必要とせず,競争的な結果が得られることを示す。
論文参考訳（メタデータ） (2025-04-15T08:48:41Z)
Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning [3.8984478257737734]
マルチモーダルモデルはクロスモーダルなタスクでは優れているが、数十億のパラメータのために計算コストが高い。既存の手法は主にユニモーダル処理に重点を置いており、マルチモーダルタスクに必要な重要なモーダル融合を見越している。我々は,従来のPEFTフレームワークを拡張して,マルチモーダルな専門家の組み合わせをサポートし,情報インタラクションを改善する専門家の混在を提案する。
論文参考訳（メタデータ） (2025-03-26T15:26:18Z)
EPE-P: Evidence-based Parameter-efficient Prompting for Multimodal Learning with Missing Modalities [20.991711160707755]
モダリティの欠如は、実世界のマルチモーダル学習シナリオにおいて、トレーニングとテストの両方で発生する一般的な課題である。欠落したモダリティを管理する既存の方法は、しばしば各モダリティや欠落したケースに対して別々のプロンプトを設計する必要がある。我々はエビデンスに基づくエビデンスを提案する。事前学習型マルチモーダルネットワークのための新規かつパラメータ効率の高い手法EPE-P。
論文参考訳（メタデータ） (2024-12-23T16:01:12Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
SuperPos-Prompt: Enhancing Soft Prompt Tuning of Language Models with Superposition of Multi Token Embeddings [0.7349727826230863]
事前訓練された言語モデルのパラメータ効率チューニングに有効な手法として,ソフトプロンプトチューニング技術が注目を集めている。ソフトプロンプトの学習を改善するために,複数の事前学習語彙の埋め込みを重畳した新しい再パラメータ化手法であるSuperPos-Promptを導入する。我々の実験は、Residual Promptチューニングに対するSuperPos-Promptの優位性を常に強調しており、平均スコアはT5-Smallで$6.4$、T5-Baseで$5.0$である。驚くべきことに、SuperPos-Promptは時々、完全な微調整方法よりも優れています。
論文参考訳（メタデータ） (2024-06-07T22:18:49Z)
On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning? [13.803180972839213]
テスト時間拡張(MTA)のための堅牢な平均シフトを導入する。 MTAは、この集中的なトレーニング手順を必要とせずに、プロンプトベースの手法を超える。提案手法を15のデータセット上で広範囲にベンチマークし,MTAの優位性と計算効率を実証する。
論文参考訳（メタデータ） (2024-05-03T17:34:02Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Conditional Prompt Tuning for Multimodal Fusion [33.11221356852871]
パラメータ効率のよいマルチモーダル融合において、あるモーダルの表現は、他のモーダルの促進を効果的に導くことができることを示す。これは、バニラプロンプトベクトルを3種類の特殊プロンプトに切り離して、グローバルレベルとインスタンスレベルの機能を適応的にキャプチャすることで達成される。本手法は,下流マルチモーダルタスクに対して,単調エンコーダにおける事前学習した知識を効果的に伝達することができる。
論文参考訳（メタデータ） (2023-11-28T11:05:20Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文参考訳（メタデータ） (2023-04-13T07:31:51Z)
Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文参考訳（メタデータ） (2022-12-01T17:31:42Z)
UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文参考訳（メタデータ） (2021-10-14T17:40:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。