論文の概要: Segment Anything Across Shots: A Method and Benchmark
- arxiv url: http://arxiv.org/abs/2511.13715v1
- Date: Mon, 17 Nov 2025 18:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.698653
- Title: Segment Anything Across Shots: A Method and Benchmark
- Title(参考訳): Segment Anything Across Shots: メソッドとベンチマーク
- Authors: Hengrui Hu, Kaining Ying, Henghui Ding,
- Abstract要約: 本研究は,マルチショット半教師付きビデオオブジェクトセグメンテーション(MVOS)に焦点をあて,複数のショットでビデオ全体を通して初期マスクで示される対象オブジェクトをセグメンテーションすることを目的とする。
単発データを用いたクロスショット一般化を可能にするデータ拡張戦略(TMA)の移行を提案する。
MVOSにおける評価と今後の研究を支援するために,高密度マスクアノテーション,多種多様なオブジェクトカテゴリ,高周波トランジションを備えた新しいMVOSベンチマークであるCut-VOSを紹介する。
- 参考スコア(独自算出の注目度): 46.36499587944568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on multi-shot semi-supervised video object segmentation (MVOS), which aims at segmenting the target object indicated by an initial mask throughout a video with multiple shots. The existing VOS methods mainly focus on single-shot videos and struggle with shot discontinuities, thereby limiting their real-world applicability. We propose a transition mimicking data augmentation strategy (TMA) which enables cross-shot generalization with single-shot data to alleviate the severe annotated multi-shot data sparsity, and the Segment Anything Across Shots (SAAS) model, which can detect and comprehend shot transitions effectively. To support evaluation and future study in MVOS, we introduce Cut-VOS, a new MVOS benchmark with dense mask annotations, diverse object categories, and high-frequency transitions. Extensive experiments on YouMVOS and Cut-VOS demonstrate that the proposed SAAS achieves state-of-the-art performance by effectively mimicking, understanding, and segmenting across complex transitions. The code and datasets are released at https://henghuiding.com/SAAS/.
- Abstract(参考訳): 本研究は,マルチショット半教師付きビデオオブジェクトセグメンテーション(MVOS)に焦点をあて,複数のショットでビデオ全体を通して初期マスクで示される対象オブジェクトをセグメンテーションすることを目的とする。
既存のVOS方式は、主にシングルショットビデオに焦点をあて、ショットの不連続と闘い、現実の応用性を制限している。
単一ショットデータを用いたクロスショット一般化により、重度アノテーション付きマルチショットデータ空間を緩和するデータ拡張戦略(TMA)と、ショット遷移を効果的に検出し、理解することのできるセグメント・エシング・アクロスショット(SAAS)モデルを提案する。
MVOSにおける評価と今後の研究を支援するために,高密度マスクアノテーション,多種多様なオブジェクトカテゴリ,高周波トランジションを備えた新しいMVOSベンチマークであるCut-VOSを紹介する。
YouMVOSとCut-VOSの大規模な実験は、複雑な遷移を効果的に模倣し、理解し、セグメンテーションすることで、提案したSAASが最先端のパフォーマンスを達成することを示した。
コードとデータセットはhttps://henghuiding.com/SAAS/で公開されている。
関連論文リスト
- ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。
提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-23T17:58:26Z) - Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。
我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。
さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文 参考訳(メタデータ) (2024-12-02T13:17:41Z) - One-shot Training for Video Object Segmentation [11.52321103793505]
Video Object(VOS)は、ビデオ内のフレームをまたいだオブジェクトを追跡し、ターゲットオブジェクトの初期アノテーション付きフレームに基づいてそれらをセグメンテーションすることを目的としている。
これまでのVOSの作業は、トレーニングのために完全に注釈付けされたビデオに頼っていた。
VOSのための一般的なワンショットトレーニングフレームワークを提案し、トレーニングビデオあたりのラベル付きフレームは1つしか必要としない。
論文 参考訳(メタデータ) (2024-05-22T21:37:08Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。