論文の概要: SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
- arxiv url: http://arxiv.org/abs/2410.16268v1
- Date: Mon, 21 Oct 2024 17:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:14.945470
- Title: SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
- Title(参考訳): SAM2Long: トレーニング不要のメモリツリーによる長ビデオセグメンテーションのためのSAM 2の強化
- Authors: Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang,
- Abstract要約: SAM2Longは、トレーニング不要のビデオオブジェクトセグメンテーションを改良した手法である。
各フレーム内のセグメンテーションの不確実性を考慮し、複数のセグメンテーション経路からビデオレベルの最適結果を選択する。
SAM2Longは、24の頭対頭比較で平均3.0点の改善を実現している。
- 参考スコア(独自算出の注目度): 79.26409013413003
- License:
- Abstract: The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation model for object segmentation in both images and videos, paving the way for various downstream video applications. The crucial design of SAM 2 for video segmentation is its memory module, which prompts object-aware memories from previous frames for current frame prediction. However, its greedy-selection memory design suffers from the "error accumulation" problem, where an errored or missed mask will cascade and influence the segmentation of the subsequent frames, which limits the performance of SAM 2 toward complex long-term videos. To this end, we introduce SAM2Long, an improved training-free video object segmentation strategy, which considers the segmentation uncertainty within each frame and chooses the video-level optimal results from multiple segmentation pathways in a constrained tree search manner. In practice, we maintain a fixed number of segmentation pathways throughout the video. For each frame, multiple masks are proposed based on the existing pathways, creating various candidate branches. We then select the same fixed number of branches with higher cumulative scores as the new pathways for the next frame. After processing the final frame, the pathway with the highest cumulative score is chosen as the final segmentation result. Benefiting from its heuristic search design, SAM2Long is robust toward occlusions and object reappearances, and can effectively segment and track objects for complex long-term videos. Notably, SAM2Long achieves an average improvement of 3.0 points across all 24 head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term video object segmentation benchmarks such as SA-V and LVOS. The code is released at https://github.com/Mark12Ding/SAM2Long.
- Abstract(参考訳): Segment Anything Model 2 (SAM2)は、画像とビデオの両方においてオブジェクトセグメンテーションの強力な基盤モデルとして登場し、様々なダウンストリームビデオアプリケーションへの道を開いた。
ビデオセグメンテーションにおけるSAM 2の重要な設計はメモリモジュールであり、現在のフレーム予測のために以前のフレームからオブジェクト認識メモリを誘導する。
しかし、その派手な選択メモリ設計は「エラー蓄積」の問題に悩まされ、エラーまたはミスしたマスクがカスケードされ、その後のフレームのセグメンテーションに影響を及ぼし、SAM 2の性能が複雑な長期ビデオに制限される。
そこで本研究では,各フレーム内のセグメンテーションの不確実性を考慮し,制約木探索方式で複数のセグメンテーション経路からビデオレベルの最適結果を選択する,学習自由なビデオオブジェクトセグメンテーション戦略であるSAM2Longを紹介する。
実際には、ビデオ全体を通して一定数のセグメンテーションパスを維持できる。
各フレームに対して、既存の経路に基づいて複数のマスクが提案され、様々な候補分岐が作成される。
次に、次のフレームの新しい経路と同じ累積スコアを持つ固定数の枝を選択する。
最終フレーム処理後、最上位累積スコアの経路を最終セグメンテーション結果として選択する。
SAM2Longはヒューリスティックな検索デザインから恩恵を受けており、オクルージョンやオブジェクトの再出現に対して堅牢であり、複雑な長期ビデオのためにオブジェクトを効果的にセグメンテーションし追跡することができる。
特にSAM2Longは、SA-VやLVOSのような長期のビデオオブジェクトセグメンテーションベンチマークにおいて、J&Fにおいて最大5.3ポイントのアップで、24のヘッド・ツー・ヘッド比較の平均3.0ポイントを達成している。
コードはhttps://github.com/Mark12Ding/SAM2Longで公開されている。
関連論文リスト
- Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track [28.52754012142431]
Segment Anything Model 2 (SAM2) は、画像やビデオにおける迅速な視覚的セグメンテーションを解決するための基礎モデルである。
SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。
訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。
論文 参考訳(メタデータ) (2024-08-19T16:13:14Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - SAM 2: Segment Anything in Images and Videos [63.44869623822368]
本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。
ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。
我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T17:00:08Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - Propagating Semantic Labels in Video Data [0.0]
本研究では,映像中のオブジェクトのセグメンテーションを行う手法を提案する。
ビデオのフレームでオブジェクトが見つかると、セグメントは将来のフレームに伝達される。
この方法はSAMとStructure from Motionを組み合わせることで機能する。
論文 参考訳(メタデータ) (2023-10-01T20:32:26Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。