論文の概要: UniVS: Unified and Universal Video Segmentation with Prompts as Queries
- arxiv url: http://arxiv.org/abs/2402.18115v2
- Date: Mon, 10 Jun 2024 10:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:13:35.274298
- Title: UniVS: Unified and Universal Video Segmentation with Prompts as Queries
- Title(参考訳): UniVS: Promptをクエリとして統合されたユニバーサルビデオセグメンテーション
- Authors: Minghan Li, Shuai Li, Xindong Zhang, Lei Zhang,
- Abstract要約: 本稿では、プロンプトをクエリとして使用することにより、新しい統合ビデオセグメンテーションアーキテクチャ、すなわちUniVSを提案する。
以前のフレームから予測されたエンティティのマスクを視覚的なプロンプトとすることで、UniVSは異なるVSタスクをプロンプト誘導されたターゲットセグメンテーションに変換する。
UniVSは、VSベンチマーク10の課題に対して、パフォーマンスと普遍性の合計バランスを示している。
- 参考スコア(独自算出の注目度): 21.533315369264532
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the recent advances in unified image segmentation (IS), developing a unified video segmentation (VS) model remains a challenge. This is mainly because generic category-specified VS tasks need to detect all objects and track them across consecutive frames, while prompt-guided VS tasks require re-identifying the target with visual/text prompts throughout the entire video, making it hard to handle the different tasks with the same architecture. We make an attempt to address these issues and present a novel unified VS architecture, namely UniVS, by using prompts as queries. UniVS averages the prompt features of the target from previous frames as its initial query to explicitly decode masks, and introduces a target-wise prompt cross-attention layer in the mask decoder to integrate prompt features in the memory pool. By taking the predicted masks of entities from previous frames as their visual prompts, UniVS converts different VS tasks into prompt-guided target segmentation, eliminating the heuristic inter-frame matching process. Our framework not only unifies the different VS tasks but also naturally achieves universal training and testing, ensuring robust performance across different scenarios. UniVS shows a commendable balance between performance and universality on 10 challenging VS benchmarks, covering video instance, semantic, panoptic, object, and referring segmentation tasks. Code can be found at \url{https://github.com/MinghanLi/UniVS}.
- Abstract(参考訳): 統合画像分割(IS)の最近の進歩にもかかわらず、統合ビデオ分割(VS)モデルの開発は依然として課題である。
これは主に、一般的なカテゴリ指定のVSタスクがすべてのオブジェクトを検出し、連続するフレームをまたいで追跡する必要があるのに対して、プロンプト誘導のVSタスクは、ビデオ全体を通して視覚/テキストプロンプトでターゲットを再識別する必要があるため、異なるタスクを同じアーキテクチャで扱うのが難しくなるためである。
これらの問題に対処し、クエリとしてプロンプトを使用することで、新しい統合VSアーキテクチャ、すなわちUniVSを提案する。
UniVSは、マスクを明示的にデコードするための初期クエリとして、以前のフレームからターゲットのプロンプト機能を平均化し、マスクデコーダにターゲットワイドプロンプトのクロスアテンション層を導入して、メモリプールにプロンプト機能を統合する。
以前のフレームから予測されたエンティティのマスクを視覚的なプロンプトとすることで、UniVSは異なるVSタスクをプロンプト誘導されたターゲットセグメンテーションに変換し、ヒューリスティックなフレーム間マッチングプロセスを排除する。
私たちのフレームワークは、異なるVSタスクを統一するだけでなく、自然に普遍的なトレーニングとテストを実現し、異なるシナリオ間で堅牢なパフォーマンスを確保します。
UniVSは、ビデオインスタンス、セマンティクス、パノプティクス、オブジェクト、セグメンテーションタスクの参照を含む、VSの10の挑戦的なベンチマークで、パフォーマンスと普遍性の合計バランスを示している。
コードは \url{https://github.com/MinghanLi/UniVS} で見ることができる。
関連論文リスト
- General and Task-Oriented Video Segmentation [60.58054218592606]
GvSegは、4つの異なるビデオセグメンテーションタスクに対処するための一般的なビデオセグメンテーションフレームワークである。
GvSegはセグメントターゲットに対する全体論的アンタングルとモデリングを提供し、外観、位置、形状の観点からそれらを徹底的に検証する。
7つのゴールド標準ベンチマークデータセットに関する大規模な実験は、GvSegが既存の専門/一般のソリューションをすべて超越していることを示している。
論文 参考訳(メタデータ) (2024-07-09T04:21:38Z) - UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces [92.52589788633856]
単一のアーキテクチャで4つの参照ベースのオブジェクトセグメンテーションタスクを統合するために、UniRef++を提案する。
統一された設計により、UniRef++は幅広いベンチマークで共同でトレーニングすることができ、実行時に柔軟に複数のタスクを完了させることができる。
提案する UniRef++ は RIS と RVOS の最先端性能を実現し,パラメータ共有ネットワークを用いて FSS と VOS の競合性能を実現する。
論文 参考訳(メタデータ) (2023-12-25T12:54:11Z) - Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation
and Beyond [0.0]
視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。
偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。
mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
論文 参考訳(メタデータ) (2023-08-15T02:46:49Z) - AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。
このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。
本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文 参考訳(メタデータ) (2023-07-03T16:37:10Z) - Boosting Video Object Segmentation via Space-time Correspondence
Learning [48.8275459383339]
ビデオオブジェクトセグメンテーション(VOS)の現在のソリューションは、通常マッチングベースのレシエーションに従う。
そこで我々は,ロバストな対応マッチングを明示的に奨励することにより,マッチングベースのVOSソリューションを向上する,対応対応型トレーニングフレームワークを考案した。
提案アルゴリズムは, 広く使用されている4つのベンチマークに対して, 確固たる性能向上をもたらす。
論文 参考訳(メタデータ) (2023-04-13T01:34:44Z) - Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。
EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。
EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2023-03-20T06:01:53Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。