論文の概要: DMPT: Decoupled Modality-aware Prompt Tuning for Multi-modal Object Re-identification
- arxiv url: http://arxiv.org/abs/2504.10985v1
- Date: Tue, 15 Apr 2025 08:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:53.877873
- Title: DMPT: Decoupled Modality-aware Prompt Tuning for Multi-modal Object Re-identification
- Title(参考訳): DMPT:マルチモーダルオブジェクト再識別のための非結合モード対応プロンプトチューニング
- Authors: Minghui Lin, Shu Wang, Xiang Wang, Jianhua Tang, Longbin Fu, Zhengrong Zuo, Nong Sang,
- Abstract要約: マルチモーダルオブジェクト再識別に適した効率的なプロンプトチューニングフレームワークを提案する。
我々のフレームワークはメインのバックボーンを凍結し、新たに追加された複数のモダリティ対応パラメータのみを最適化する。
我々は,既存の最先端手法に対して,バックボーンパラメータの微調整を6.5%しか必要とせず,競争的な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 28.391851855141976
- License:
- Abstract: Current multi-modal object re-identification approaches based on large-scale pre-trained backbones (i.e., ViT) have displayed remarkable progress and achieved excellent performance. However, these methods usually adopt the standard full fine-tuning paradigm, which requires the optimization of considerable backbone parameters, causing extensive computational and storage requirements. In this work, we propose an efficient prompt-tuning framework tailored for multi-modal object re-identification, dubbed DMPT, which freezes the main backbone and only optimizes several newly added decoupled modality-aware parameters. Specifically, we explicitly decouple the visual prompts into modality-specific prompts which leverage prior modality knowledge from a powerful text encoder and modality-independent semantic prompts which extract semantic information from multi-modal inputs, such as visible, near-infrared, and thermal-infrared. Built upon the extracted features, we further design a Prompt Inverse Bind (PromptIBind) strategy that employs bind prompts as a medium to connect the semantic prompt tokens of different modalities and facilitates the exchange of complementary multi-modal information, boosting final re-identification results. Experimental results on multiple common benchmarks demonstrate that our DMPT can achieve competitive results to existing state-of-the-art methods while requiring only 6.5% fine-tuning of the backbone parameters.
- Abstract(参考訳): 大規模なトレーニング済みバックボーン(ViT)に基づく現在のマルチモーダルオブジェクト再識別手法は、目覚ましい進歩を示し、優れた性能を実現している。
しかし、これらの手法は通常標準的な完全な微調整パラダイムを採用しており、かなりのバックボーンパラメータを最適化する必要がある。
本研究では,マルチモーダルオブジェクト再識別に適した効率的なプロンプトチューニングフレームワークDMPTを提案する。
具体的には、視覚的プロンプトを、強力なテキストエンコーダから事前のモダリティ知識を活用するモダリティ固有プロンプトと、可視、近赤外線、熱赤外などの多モード入力から意味情報を抽出するモダリティ非依存セマンティックプロンプトに明確に分離する。
抽出した特徴に基づいて,バインドプロンプトを利用するPrompt Inverse Bind(PromptIBind)戦略をさらに設計し,異なるモダリティのセマンティックプロンプトトークンを接続し,補完的なマルチモーダル情報の交換を容易にし,最終的な再同定結果を向上する。
複数の共通ベンチマーク実験の結果、DMPTは既存の最先端手法と競合する結果が得られる一方で、バックボーンパラメータの6.5%の微調整しか必要としないことがわかった。
関連論文リスト
- MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - MoPE: Mixture of Prompt Experts for Parameter-Efficient and Scalable Multimodal Fusion [29.46189153751869]
プロンプトエキスパートの混合 (Mixture of Prompt Experts, MOPE) は、標準のプロンプトを分解することで制限を克服するために設計された最初の技術である。
本手法は, トレーニングデータとトレーニング可能なパラメータの総数により, より効果的にスケールできることを示す。
論文 参考訳(メタデータ) (2024-03-14T17:47:10Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Conditional Prompt Tuning for Multimodal Fusion [33.11221356852871]
パラメータ効率のよいマルチモーダル融合において、あるモーダルの表現は、他のモーダルの促進を効果的に導くことができることを示す。
これは、バニラプロンプトベクトルを3種類の特殊プロンプトに切り離して、グローバルレベルとインスタンスレベルの機能を適応的にキャプチャすることで達成される。
本手法は,下流マルチモーダルタスクに対して,単調エンコーダにおける事前学習した知識を効果的に伝達することができる。
論文 参考訳(メタデータ) (2023-11-28T11:05:20Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。
下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。
すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文 参考訳(メタデータ) (2023-03-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。