論文の概要: Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2503.03492v1
- Date: Wed, 05 Mar 2025 13:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:02.256621
- Title: Find First, Track Next: Decoupling Identification and Propagation in Referring Video Object Segmentation
- Title(参考訳): Find First, Track Next: Referring Video Object Segmentationにおける識別と伝播の分離
- Authors: Suhwan Cho, Seunghoon Lee, Minhyeok Lee, Jungho Lee, Sangyoun Lee,
- Abstract要約: ビデオオブジェクトのセグメンテーションの参照は、自然言語プロンプトを使用して、ビデオ内の対象オブジェクトをセグメンテーションし、追跡することを目的としている。
本研究では、マスクの伝搬からターゲットの識別を分離する新しい分離されたフレームワークであるFindTrackを紹介する。
FindTrackは、公開ベンチマークで既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 19.190651264839065
- License:
- Abstract: Referring video object segmentation aims to segment and track a target object in a video using a natural language prompt. Existing methods typically fuse visual and textual features in a highly entangled manner, processing multi-modal information together to generate per-frame masks. However, this approach often struggles with ambiguous target identification, particularly in scenes with multiple similar objects, and fails to ensure consistent mask propagation across frames. To address these limitations, we introduce FindTrack, a novel decoupled framework that separates target identification from mask propagation. FindTrack first adaptively selects a key frame by balancing segmentation confidence and vision-text alignment, establishing a robust reference for the target object. This reference is then utilized by a dedicated propagation module to track and segment the object across the entire video. By decoupling these processes, FindTrack effectively reduces ambiguities in target association and enhances segmentation consistency. We demonstrate that FindTrack outperforms existing methods on public benchmarks.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーションの参照は、自然言語プロンプトを使用して、ビデオ内の対象オブジェクトをセグメンテーションし、追跡することを目的としている。
既存の手法は、視覚的特徴とテキスト的特徴を高度に絡み合った方法で融合させ、複数のモーダル情報を一緒に処理してフレーム単位のマスクを生成する。
しかし、このアプローチは、特に複数の類似したオブジェクトを持つシーンにおいて、曖昧なターゲット識別に苦しむことが多く、フレーム間の一貫したマスクの伝搬を保証するのに失敗する。
これらの制限に対処するため、マスクの伝搬からターゲットの識別を分離する新しい分離されたフレームワークであるFindTrackを紹介した。
FindTrackはまず、セグメンテーションの信頼性とビジョンテキストのアライメントのバランスを取り、ターゲットオブジェクトに対するロバストな参照を確立することで、キーフレームを適応的に選択する。
この参照は、ビデオ全体にわたってオブジェクトを追跡し、セグメンテーションするために、専用の伝搬モジュールによって使用される。
これらのプロセスを分離することで、FindTrackはターゲットアソシエーションの曖昧さを効果的に低減し、セグメンテーションの一貫性を高める。
FindTrackは、公開ベンチマークで既存のメソッドよりも優れています。
関連論文リスト
- Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。
我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。
さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文 参考訳(メタデータ) (2024-12-02T13:17:41Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Robust Visual Tracking by Segmentation [103.87369380021441]
対象範囲を推定することは、視覚的物体追跡において根本的な課題となる。
高精度なセグメンテーションマスクを生成するセグメンテーション中心のトラッキングパイプラインを提案する。
我々のトラッカーは、シーンのターゲットを背景コンテンツと明確に区別するターゲット表現をよりよく学習することができる。
論文 参考訳(メタデータ) (2022-03-21T17:59:19Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - An Exploration of Target-Conditioned Segmentation Methods for Visual
Object Trackers [24.210580784051277]
境界ボックストラッカーをセグメント化トラッカーに変換する方法を示す。
この手法は,最近提案されたセグメンテーショントラッカーと競合することを示す。
論文 参考訳(メタデータ) (2020-08-03T16:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。