論文の概要: Segment Anything for Video: A Comprehensive Review of Video Object Segmentation and Tracking from Past to Future
- arxiv url: http://arxiv.org/abs/2507.22792v1
- Date: Wed, 30 Jul 2025 15:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.311491
- Title: Segment Anything for Video: A Comprehensive Review of Video Object Segmentation and Tracking from Past to Future
- Title(参考訳): ビデオのためのセグメンテーション:過去から未来までのビデオオブジェクトのセグメンテーションと追跡の総合的レビュー
- Authors: Guoping Xu, Jayaram K. Udupa, Yajun Yu, Hua-Chieh Shao, Songlin Zhao, Wei Liu, You Zhang,
- Abstract要約: Video Object and Tracking (VOST) はコンピュータビジョンにおいて複雑だが重要な課題である。
伝統的な手法は、領域の一般化、時間的一貫性、計算効率に悩まされてきた。
Segment Anything Model (SAM) のような基礎モデルとその後継であるSAM2は、パラダイムシフトを導入した。
- 参考スコア(独自算出の注目度): 4.0794031763250596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Object Segmentation and Tracking (VOST) presents a complex yet critical challenge in computer vision, requiring robust integration of segmentation and tracking across temporally dynamic frames. Traditional methods have struggled with domain generalization, temporal consistency, and computational efficiency. The emergence of foundation models like the Segment Anything Model (SAM) and its successor, SAM2, has introduced a paradigm shift, enabling prompt-driven segmentation with strong generalization capabilities. Building upon these advances, this survey provides a comprehensive review of SAM/SAM2-based methods for VOST, structured along three temporal dimensions: past, present, and future. We examine strategies for retaining and updating historical information (past), approaches for extracting and optimizing discriminative features from the current frame (present), and motion prediction and trajectory estimation mechanisms for anticipating object dynamics in subsequent frames (future). In doing so, we highlight the evolution from early memory-based architectures to the streaming memory and real-time segmentation capabilities of SAM2. We also discuss recent innovations such as motion-aware memory selection and trajectory-guided prompting, which aim to enhance both accuracy and efficiency. Finally, we identify remaining challenges including memory redundancy, error accumulation, and prompt inefficiency, and suggest promising directions for future research. This survey offers a timely and structured overview of the field, aiming to guide researchers and practitioners in advancing the state of VOST through the lens of foundation models.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーションとトラッキング(VOST)は、コンピュータビジョンにおいて複雑だが重要な課題であり、セグメンテーションの堅牢な統合と時間的動的フレーム間の追跡を必要とする。
伝統的な手法は、領域の一般化、時間的一貫性、計算効率に悩まされてきた。
Segment Anything Model (SAM)とその後継であるSAM2のような基盤モデルの出現はパラダイムシフトを導入し、強力な一般化機能を備えたプロンプト駆動セグメンテーションを可能にした。
これらの進歩に基づいて,本調査は,過去,現在,未来という3つの時間的次元に沿って構築されたVOSTのためのSAM/SAM2ベースの手法の総合的なレビューを提供する。
本研究では,過去の情報(パスト)の保持・更新戦略,現在のフレーム(現在)から識別的特徴を抽出・最適化するためのアプローチ,およびその後のフレーム(未来)におけるオブジェクトのダイナミクスを予測するための動き予測と軌道推定機構について検討する。
そうすることで、私たちは、初期のメモリベースのアーキテクチャから、SAM2のストリーミングメモリとリアルタイムセグメンテーション能力への進化を強調します。
また,動作認識型メモリ選択や軌道誘導型プロンプトなどの最近の技術革新についても論じ,精度と効率の両立を図っている。
最後に、メモリ冗長性、エラー蓄積、迅速な非効率性などの課題を特定し、今後の研究に向けて有望な方向性を提案する。
本調査は,基礎モデルのレンズを通してVOSTの状態を推し進めるための研究者や実践者の指導を目的とした,タイムリーで構造化された分野の概要を提供する。
関連論文リスト
- HQ-SMem: Video Segmentation and Tracking Using Memory Efficient Object Embedding With Selective Update and Self-Supervised Distillation Feedback [0.0]
本稿では,高画質ビデオセグメンテーションとスマートメモリを用いたトラッキングのためのHQ-SMemを紹介する。
提案手法には, SAMと高品質マスク(SAM-HQ)を併用して, 粗いセグメンテーションマスクを改良し, オブジェクト境界を改良する, (ii) 冗長なキーフレームを廃棄しながら, 関連キーフレームを選択的に格納する動的スマートメモリ機構を実装し, (iii) 複雑なトポロジ的オブジェクトの変動を効果的に処理し, ビデオ全体のドリフトを低減するための外観モデルを動的に更新する,という3つの重要なイノベーションが含まれている。
論文 参考訳(メタデータ) (2025-07-25T03:28:05Z) - SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。
本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。
SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文 参考訳(メタデータ) (2025-07-21T17:59:02Z) - Scoring, Remember, and Reference: Catching Camouflaged Objects in Videos [24.03405963900272]
Video Camouflaged Object Detectionは、外見が周囲によく似ているオブジェクトを分割することを目的としている。
既存の視覚モデルは、カモフラージュされた物体の識別不可能な外観のために、このようなシナリオでしばしば苦労する。
人間の記憶認識にインスパイアされたエンドツーエンドのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T11:08:14Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。