Fugu-MT 論文翻訳(概要): UniVS: Unified and Universal Video Segmentation with Prompts as Queries

論文の概要: UniVS: Unified and Universal Video Segmentation with Prompts as Queries

arxiv url: http://arxiv.org/abs/2402.18115v2
Date: Mon, 10 Jun 2024 10:52:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 01:13:35.274298
Title: UniVS: Unified and Universal Video Segmentation with Prompts as Queries
Title（参考訳）: UniVS: Promptをクエリとして統合されたユニバーサルビデオセグメンテーション
Authors: Minghan Li, Shuai Li, Xindong Zhang, Lei Zhang,
Abstract要約: 本稿では、プロンプトをクエリとして使用することにより、新しい統合ビデオセグメンテーションアーキテクチャ、すなわちUniVSを提案する。以前のフレームから予測されたエンティティのマスクを視覚的なプロンプトとすることで、UniVSは異なるVSタスクをプロンプト誘導されたターゲットセグメンテーションに変換する。 UniVSは、VSベンチマーク10の課題に対して、パフォーマンスと普遍性の合計バランスを示している。
参考スコア（独自算出の注目度）: 21.533315369264532
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite the recent advances in unified image segmentation (IS), developing a unified video segmentation (VS) model remains a challenge. This is mainly because generic category-specified VS tasks need to detect all objects and track them across consecutive frames, while prompt-guided VS tasks require re-identifying the target with visual/text prompts throughout the entire video, making it hard to handle the different tasks with the same architecture. We make an attempt to address these issues and present a novel unified VS architecture, namely UniVS, by using prompts as queries. UniVS averages the prompt features of the target from previous frames as its initial query to explicitly decode masks, and introduces a target-wise prompt cross-attention layer in the mask decoder to integrate prompt features in the memory pool. By taking the predicted masks of entities from previous frames as their visual prompts, UniVS converts different VS tasks into prompt-guided target segmentation, eliminating the heuristic inter-frame matching process. Our framework not only unifies the different VS tasks but also naturally achieves universal training and testing, ensuring robust performance across different scenarios. UniVS shows a commendable balance between performance and universality on 10 challenging VS benchmarks, covering video instance, semantic, panoptic, object, and referring segmentation tasks. Code can be found at \url{https://github.com/MinghanLi/UniVS}.
Abstract（参考訳）: 統合画像分割(IS)の最近の進歩にもかかわらず、統合ビデオ分割(VS)モデルの開発は依然として課題である。これは主に、一般的なカテゴリ指定のVSタスクがすべてのオブジェクトを検出し、連続するフレームをまたいで追跡する必要があるのに対して、プロンプト誘導のVSタスクは、ビデオ全体を通して視覚/テキストプロンプトでターゲットを再識別する必要があるため、異なるタスクを同じアーキテクチャで扱うのが難しくなるためである。これらの問題に対処し、クエリとしてプロンプトを使用することで、新しい統合VSアーキテクチャ、すなわちUniVSを提案する。 UniVSは、マスクを明示的にデコードするための初期クエリとして、以前のフレームからターゲットのプロンプト機能を平均化し、マスクデコーダにターゲットワイドプロンプトのクロスアテンション層を導入して、メモリプールにプロンプト機能を統合する。以前のフレームから予測されたエンティティのマスクを視覚的なプロンプトとすることで、UniVSは異なるVSタスクをプロンプト誘導されたターゲットセグメンテーションに変換し、ヒューリスティックなフレーム間マッチングプロセスを排除する。私たちのフレームワークは、異なるVSタスクを統一するだけでなく、自然に普遍的なトレーニングとテストを実現し、異なるシナリオ間で堅牢なパフォーマンスを確保します。 UniVSは、ビデオインスタンス、セマンティクス、パノプティクス、オブジェクト、セグメンテーションタスクの参照を含む、VSの10の挑戦的なベンチマークで、パフォーマンスと普遍性の合計バランスを示している。コードは \url{https://github.com/MinghanLi/UniVS} で見ることができる。

関連論文リスト

SimToken: A Simple Baseline for Referring Audio-Visual Segmentation [29.88252418748085]
Referring Audio-Visual (Ref-AVS) は、自然言語表現に基づいて、特定のオブジェクトをビデオに分割することを目的としている。このタスクは、クロスモーダル推論ときめ細かいオブジェクトローカライゼーションにおいて重要な課題を提起する。我々はSegment Anything Model(SAM)とMLLM(Multimodal large language model)を統合したSimTokenというフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-22T08:55:04Z)
Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation [115.74044261016554]
ビデオインスタンスセグメンテーション(VIS)は、ビデオフレーム全体にわたるオブジェクトインスタンスのトラッキングとセグメンテーションの能力において、大きな注目を集めている。既存のVISアプローチのほとんどは、オブジェクトインスタンスのカテゴリが時間とともに固定されていると非現実的に仮定する。我々は,フレームレベルとビデオレベルの両方の観点から,過去のカテゴリの破滅的な忘れを克服する新しい階層型ビジュアルプロンプト学習モデルを開発した。
論文参考訳（メタデータ） (2025-08-12T03:49:08Z)
Stepwise Decomposition and Dual-stream Focus: A Novel Approach for Training-free Camouflaged Object Segmentation [9.862714096455175]
我々は、textbfMultimodal textbfStepwise textbfDecomposition Chain of Thought (MSD-CoT) を介して textbfRegion-constrained textbfDual-stream textbfVisual textbfPrompting (RDVP) を相乗化する新しいトレーニングフリーなテスト時間適応フレームワークを提案する。 RDVPは、前景と背景点の視覚的プロンプトを視覚的および独立的にサンプリングする空間的制約を注入し、意味的相違を効果的に緩和する
論文参考訳（メタデータ） (2025-06-07T14:50:26Z)
DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot Segmentation [2.7624021966289605]
Few-shot semantic segmentation (FSS) は、限定されたラベル付き例のみを使用して、モデルが新規/未使用のオブジェクトクラスをセグメンテーションできるようにすることを目的としている。本稿では,大規模言語モデル(LLM)を用いて,汎用クラス意味情報をクエリ画像に適用する新しいフレームワークを提案する。我々のフレームワークは、様々なシナリオにまたがって、新しいクラスへの高度な一般化と堅牢性を示す、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-06T01:42:28Z)
General and Task-Oriented Video Segmentation [60.58054218592606]
GvSegは、4つの異なるビデオセグメンテーションタスクに対処するための一般的なビデオセグメンテーションフレームワークである。 GvSegはセグメントターゲットに対する全体論的アンタングルとモデリングを提供し、外観、位置、形状の観点からそれらを徹底的に検証する。 7つのゴールド標準ベンチマークデータセットに関する大規模な実験は、GvSegが既存の専門/一般のソリューションをすべて超越していることを示している。
論文参考訳（メタデータ） (2024-07-09T04:21:38Z)
UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization [83.89550658314741]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文参考訳（メタデータ） (2024-04-04T03:28:57Z)
UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces [92.52589788633856]
単一のアーキテクチャで4つの参照ベースのオブジェクトセグメンテーションタスクを統合するために、UniRef++を提案する。統一された設計により、UniRef++は幅広いベンチマークで共同でトレーニングすることができ、実行時に柔軟に複数のタスクを完了させることができる。提案する UniRef++ は RIS と RVOS の最先端性能を実現し,パラメータ共有ネットワークを用いて FSS と VOS の競合性能を実現する。
論文参考訳（メタデータ） (2023-12-25T12:54:11Z)
Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation and Beyond [0.0]
視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。 mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
論文参考訳（メタデータ） (2023-08-15T02:46:49Z)
AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文参考訳（メタデータ） (2023-07-03T16:37:10Z)
Boosting Video Object Segmentation via Space-time Correspondence Learning [48.8275459383339]
ビデオオブジェクトセグメンテーション(VOS)の現在のソリューションは、通常マッチングベースのレシエーションに従う。そこで我々は,ロバストな対応マッチングを明示的に奨励することにより,マッチングベースのVOSソリューションを向上する,対応対応型トレーニングフレームワークを考案した。提案アルゴリズムは, 広く使用されている4つのベンチマークに対して, 確固たる性能向上をもたらす。
論文参考訳（メタデータ） (2023-04-13T01:34:44Z)
Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。 EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。 EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文参考訳（メタデータ） (2023-03-20T06:01:53Z)
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文参考訳（メタデータ） (2022-06-14T20:43:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。