論文の概要: X-Prompt: Multi-modal Visual Prompt for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2409.19342v1
- Date: Sat, 28 Sep 2024 13:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:58:48.281925
- Title: X-Prompt: Multi-modal Visual Prompt for Video Object Segmentation
- Title(参考訳): X-Prompt: ビデオオブジェクトセグメンテーションのためのマルチモーダルビジュアルプロンプト
- Authors: Pinxue Guo, Wanyun Li, Hao Huang, Lingyi Hong, Xinyu Zhou, Zhaoyu Chen, Jinglun Li, Kaixun Jiang, Wei Zhang, Wenqiang Zhang,
- Abstract要約: 我々は、RGB+Xとして指定された全マルチモーダルビデオオブジェクトセグメンテーションタスクに対して、X-Promptという普遍的なフレームワークを提案する。
このフレームワークは、RGBデータを使用してビデオオブジェクトセグメンテーション基盤モデルを事前訓練し、次にプロンプトの追加モダリティを利用して、限られたデータで下流のマルチモーダルタスクに適応する。
提案したユニバーサルX-Promptフレームワークは、完全な微調整パラダイムを一貫して上回り、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 26.54685042198875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Video Object Segmentation (VOS), including RGB-Thermal, RGB-Depth, and RGB-Event, has garnered attention due to its capability to address challenging scenarios where traditional VOS methods struggle, such as extreme illumination, rapid motion, and background distraction. Existing approaches often involve designing specific additional branches and performing full-parameter fine-tuning for fusion in each task. However, this paradigm not only duplicates research efforts and hardware costs but also risks model collapse with the limited multi-modal annotated data. In this paper, we propose a universal framework named X-Prompt for all multi-modal video object segmentation tasks, designated as RGB+X. The X-Prompt framework first pre-trains a video object segmentation foundation model using RGB data, and then utilize the additional modality of the prompt to adapt it to downstream multi-modal tasks with limited data. Within the X-Prompt framework, we introduce the Multi-modal Visual Prompter (MVP), which allows prompting foundation model with the various modalities to segment objects precisely. We further propose the Multi-modal Adaptation Experts (MAEs) to adapt the foundation model with pluggable modality-specific knowledge without compromising the generalization capacity. To evaluate the effectiveness of the X-Prompt framework, we conduct extensive experiments on 3 tasks across 4 benchmarks. The proposed universal X-Prompt framework consistently outperforms the full fine-tuning paradigm and achieves state-of-the-art performance. Code: https://github.com/PinxueGuo/X-Prompt.git
- Abstract(参考訳): RGB-Thermal、RGB-Depth、RGB-Eventを含むVOS(Multi-modal Video Object Segmentation)は、極端な照明、高速モーション、バックグラウンドの注意散らしといった従来のVOSメソッドが苦労する課題に対処する能力のために注目を集めている。
既存のアプローチでは、特定のブランチを設計し、各タスクの融合のためにフルパラメータの微調整を行う場合が多い。
しかし、このパラダイムは研究努力とハードウェアコストを複製するだけでなく、限られたマルチモーダルアノテートデータによるモデル崩壊のリスクも負う。
本稿では,RGB+Xとして指定された全マルチモーダルビデオオブジェクトセグメンテーションタスクに対して,X-Promptという普遍的なフレームワークを提案する。
X-Promptフレームワークは、まずRGBデータを使用してビデオオブジェクトセグメンテーション基盤モデルを事前訓練し、次にプロンプトの追加モダリティを利用して、限られたデータで下流のマルチモーダルタスクに適応する。
X-Promptフレームワーク内では、多モードビジュアル・プロンプター(MVP)を導入し、オブジェクトを正確にセグメンテーションするための様々なモダリティを持つ基礎モデルを推進します。
さらに,多モード適応エキスパート (MAE) を用いて, 一般化能力を損なうことなく, ファウンデーションモデルをプラグ可能なモダリティ固有知識に適応させる手法を提案する。
X-Promptフレームワークの有効性を評価するため、4つのベンチマークで3つのタスクについて広範な実験を行った。
提案したユニバーサルX-Promptフレームワークは、完全な微調整パラダイムを一貫して上回り、最先端のパフォーマンスを達成する。
コード:https://github.com/PinxueGuo/X-Prompt.git
関連論文リスト
- Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments [13.274695420192884]
RGB-Dシーン解析(EMSANet)のための効率的なマルチタスク手法を提案する。
パフォーマンスを低下させることなく、モバイルプラットフォーム上で1つのニューラルネットワークを使用して、すべてのタスクをリアルタイムで達成できることを示します。
我々は,NYUv2 と SUNRGB-D の屋内シーン解析のための総合的なマルチタスク設定の結果を初めて提示する。
論文 参考訳(メタデータ) (2022-07-10T20:03:38Z) - Flexible-Modal Face Anti-Spoofing: A Benchmark [66.18359076810549]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。
第一のフレキシブル・モーダルなFASベンチマークを原則として確立しました。
また、フレキシブルモーダルFASのための一般的な深層モデルと特徴融合戦略についても検討する。
論文 参考訳(メタデータ) (2022-02-16T16:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。