論文の概要: Training-Free Robust Interactive Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2406.05485v1
- Date: Sat, 8 Jun 2024 14:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 19:25:53.376448
- Title: Training-Free Robust Interactive Video Object Segmentation
- Title(参考訳): トレーニング不要なロバストな対話型ビデオオブジェクトセグメンテーション
- Authors: Xiaoli Wei, Zhaoqing Wang, Yandong Guo, Chunxia Zhang, Tongliang Liu, Mingming Gong,
- Abstract要約: 対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
- 参考スコア(独自算出の注目度): 82.05906654403684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive video object segmentation is a crucial video task, having various applications from video editing to data annotating. However, current approaches struggle to accurately segment objects across diverse domains. Recently, Segment Anything Model (SAM) introduces interactive visual prompts and demonstrates impressive performance across different domains. In this paper, we propose a training-free prompt tracking framework for interactive video object segmentation (I-PT), leveraging the powerful generalization of SAM. Although point tracking efficiently captures the pixel-wise information of objects in a video, points tend to be unstable when tracked over a long period, resulting in incorrect segmentation. Towards fast and robust interaction, we jointly adopt sparse points and boxes tracking, filtering out unstable points and capturing object-wise information. To better integrate reference information from multiple interactions, we introduce a cross-round space-time module (CRSTM), which adaptively aggregates mask features from previous rounds and frames, enhancing the segmentation stability. Our framework has demonstrated robust zero-shot video segmentation results on popular VOS datasets with interaction types, including DAVIS 2017, YouTube-VOS 2018, and MOSE 2023, maintaining a good tradeoff between performance and interaction time.
- Abstract(参考訳): インタラクティブなビデオオブジェクトセグメンテーションは重要なビデオタスクであり、ビデオ編集からデータアノテートまで様々な応用がある。
しかし、現在のアプローチでは、さまざまなドメインにまたがるオブジェクトを正確に分割するのに苦労している。
最近、Segment Anything Model (SAM)はインタラクティブなビジュアルプロンプトを導入し、異なるドメイン間で素晴らしいパフォーマンスを示している。
本稿では,SAMの強力な一般化を利用した対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプト追跡フレームワークを提案する。
ポイントトラッキングは、ビデオ内のオブジェクトのピクセルワイズ情報を効率的にキャプチャするが、長い時間にわたって追跡すると点が不安定になり、誤ったセグメンテーションが発生する。
高速で堅牢なインタラクションに向けて、スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクト情報を取得する。
複数のインタラクションからの参照情報をよりよく統合するために,以前のラウンドやフレームからマスクの特徴を適応的に集約するクロスラウンド時空間モジュール(CRSTM)を導入し,セグメンテーション安定性を向上させる。
我々のフレームワークは、DAVIS 2017、YouTube-VOS 2018、MOSE 2023など、一般的なVOSデータセットとインタラクションタイプによる、ゼロショットビデオセグメンテーションの堅牢な結果を示し、パフォーマンスとインタラクションタイムの良好なトレードオフを維持しています。
関連論文リスト
- VideoSAM: Open-World Video Segmentation [33.09103541421983]
動的環境におけるオブジェクト追跡とセグメンテーションの整合性を改善するために設計された,エンドツーエンドのフレームワークであるVideoSAMを紹介する。
VideoSAMは集約されたバックボーンRADIOを統合し、類似度メトリクスを通じてオブジェクトの関連付けを可能にする。
提案手法は, UVO と BURST のベンチマーク, および RoboTAP のロボットビデオで広範に評価され, 実世界のシナリオにおけるその有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2024-10-11T12:56:32Z) - Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。