論文の概要: UniVS: Unified and Universal Video Segmentation with Prompts as Queries
- arxiv url: http://arxiv.org/abs/2402.18115v1
- Date: Wed, 28 Feb 2024 07:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:07:21.780924
- Title: UniVS: Unified and Universal Video Segmentation with Prompts as Queries
- Title(参考訳): UniVS: Promptをクエリとして統合されたユニバーサルビデオセグメンテーション
- Authors: Minghan Li and Shuai Li and Xindong Zhang and Lei Zhang
- Abstract要約: 本稿では、プロンプトをクエリとして使用することにより、新しい統合ビデオセグメンテーションアーキテクチャ、すなわちUniVSを提案する。
以前のフレームから予測されたエンティティのマスクを視覚的なプロンプトとすることで、UniVSは異なるVSタスクをプロンプト誘導されたターゲットセグメンテーションに変換する。
UniVSは、VSベンチマーク10の課題に対して、パフォーマンスと普遍性の合計バランスを示している。
- 参考スコア(独自算出の注目度): 23.523600098092786
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the recent advances in unified image segmentation (IS), developing a
unified video segmentation (VS) model remains a challenge. This is mainly
because generic category-specified VS tasks need to detect all objects and
track them across consecutive frames, while prompt-guided VS tasks require
re-identifying the target with visual/text prompts throughout the entire video,
making it hard to handle the different tasks with the same architecture. We
make an attempt to address these issues and present a novel unified VS
architecture, namely UniVS, by using prompts as queries. UniVS averages the
prompt features of the target from previous frames as its initial query to
explicitly decode masks, and introduces a target-wise prompt cross-attention
layer in the mask decoder to integrate prompt features in the memory pool. By
taking the predicted masks of entities from previous frames as their visual
prompts, UniVS converts different VS tasks into prompt-guided target
segmentation, eliminating the heuristic inter-frame matching process. Our
framework not only unifies the different VS tasks but also naturally achieves
universal training and testing, ensuring robust performance across different
scenarios. UniVS shows a commendable balance between performance and
universality on 10 challenging VS benchmarks, covering video instance,
semantic, panoptic, object, and referring segmentation tasks. Code can be found
at \url{https://github.com/MinghanLi/UniVS}.
- Abstract(参考訳): 統合画像分割(IS)の最近の進歩にもかかわらず、統合ビデオ分割(VS)モデルの開発は依然として課題である。
これは主に、一般的なカテゴリ指定のVSタスクがすべてのオブジェクトを検出し、連続するフレームをまたいで追跡する必要があるのに対して、プロンプト誘導のVSタスクは、ビデオ全体を通して視覚/テキストプロンプトでターゲットを再識別する必要があるため、異なるタスクを同じアーキテクチャで扱うのが難しくなるためである。
これらの問題に対処し、クエリとしてプロンプトを使用することで、新しい統合VSアーキテクチャ、すなわちUniVSを提案する。
UniVSは、マスクを明示的にデコードするための初期クエリとして、以前のフレームからターゲットのプロンプト機能を平均化し、マスクデコーダにターゲットワイドプロンプトのクロスアテンション層を導入して、メモリプールにプロンプト機能を統合する。
以前のフレームから予測されたエンティティのマスクを視覚的なプロンプトとすることで、UniVSは異なるVSタスクをプロンプト誘導されたターゲットセグメンテーションに変換し、ヒューリスティックなフレーム間マッチングプロセスを排除する。
我々のフレームワークは、異なるVSタスクを統一するだけでなく、自然に普遍的なトレーニングとテストを実現し、異なるシナリオ間で堅牢なパフォーマンスを保証する。
univsは、ビデオインスタンス、semantic、panoptic、object、およびセグメンテーションタスクを参照する10のチャレンジvsベンチマークで、パフォーマンスと普遍性のバランスを示す。
コードは \url{https://github.com/MinghanLi/UniVS} で見ることができる。
関連論文リスト
- General and Task-Oriented Video Segmentation [60.58054218592606]
GvSegは、4つの異なるビデオセグメンテーションタスクに対処するための一般的なビデオセグメンテーションフレームワークである。
GvSegはセグメントターゲットに対する全体論的アンタングルとモデリングを提供し、外観、位置、形状の観点からそれらを徹底的に検証する。
7つのゴールド標準ベンチマークデータセットに関する大規模な実験は、GvSegが既存の専門/一般のソリューションをすべて超越していることを示している。
論文 参考訳(メタデータ) (2024-07-09T04:21:38Z) - UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization [83.89550658314741]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。
本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文 参考訳(メタデータ) (2024-04-04T03:28:57Z) - UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces [92.52589788633856]
単一のアーキテクチャで4つの参照ベースのオブジェクトセグメンテーションタスクを統合するために、UniRef++を提案する。
統一された設計により、UniRef++は幅広いベンチマークで共同でトレーニングすることができ、実行時に柔軟に複数のタスクを完了させることができる。
提案する UniRef++ は RIS と RVOS の最先端性能を実現し,パラメータ共有ネットワークを用いて FSS と VOS の競合性能を実現する。
論文 参考訳(メタデータ) (2023-12-25T12:54:11Z) - Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation
and Beyond [0.0]
視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。
偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。
mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
論文 参考訳(メタデータ) (2023-08-15T02:46:49Z) - AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。
このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。
本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文 参考訳(メタデータ) (2023-07-03T16:37:10Z) - Boosting Video Object Segmentation via Space-time Correspondence
Learning [48.8275459383339]
ビデオオブジェクトセグメンテーション(VOS)の現在のソリューションは、通常マッチングベースのレシエーションに従う。
そこで我々は,ロバストな対応マッチングを明示的に奨励することにより,マッチングベースのVOSソリューションを向上する,対応対応型トレーニングフレームワークを考案した。
提案アルゴリズムは, 広く使用されている4つのベンチマークに対して, 確固たる性能向上をもたらす。
論文 参考訳(メタデータ) (2023-04-13T01:34:44Z) - Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。
EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。
EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2023-03-20T06:01:53Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。