論文の概要: UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation
via Segment Anything Model
- arxiv url: http://arxiv.org/abs/2305.12659v1
- Date: Mon, 22 May 2023 03:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:58:06.582181
- Title: UVOSAM: A Mask-free Paradigm for Unsupervised Video Object Segmentation
via Segment Anything Model
- Title(参考訳): UVOSAM:Segment Anything Modelによる教師なしビデオオブジェクトセグメンテーションのためのマスクフリーパラダイム
- Authors: Zhenghao Zhang and Zhichao Wei and Shengfan Zhang and Zuozhuo Dai and
Siyu Zhu
- Abstract要約: Segment Anything Model (SAM)は、画像セグメンテーションのための新しいプロンプト駆動パラダイムを導入し、これまで探索されていなかったさまざまな機能をアンロックした。
ビデオマスクラベルを必要とせずに、SAMを教師なしビデオオブジェクトセグメンテーションに活用するUVOSAMという新しいパラダイムを提案する。
実験の結果,UVOSAMは現在のマスク管理法よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 11.511573705519686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised video object segmentation has made significant progress in
recent years, but the manual annotation of video mask datasets is expensive and
limits the diversity of available datasets. The Segment Anything Model (SAM)
has introduced a new prompt-driven paradigm for image segmentation, unlocking a
range of previously unexplored capabilities. In this paper, we propose a novel
paradigm called UVOSAM, which leverages SAM for unsupervised video object
segmentation without requiring video mask labels. To address SAM's limitations
in instance discovery and identity association, we introduce a video salient
object tracking network that automatically generates trajectories for prominent
foreground objects. These trajectories then serve as prompts for SAM to produce
video masks on a frame-by-frame basis. Our experimental results demonstrate
that UVOSAM significantly outperforms current mask-supervised methods. These
findings suggest that UVOSAM has the potential to improve unsupervised video
object segmentation and reduce the cost of manual annotation.
- Abstract(参考訳): 教師なしのビデオオブジェクトセグメンテーションは近年大きく進歩しているが、ビデオマスクデータセットの手動アノテーションは高価であり、利用可能なデータセットの多様性を制限している。
Segment Anything Model (SAM)は、画像セグメンテーションのための新しいプロンプト駆動パラダイムを導入し、これまで探索されていなかったさまざまな機能をアンロックした。
本稿では,ビデオマスクラベルを必要とせず,SAMを教師なし映像オブジェクトのセグメンテーションに活用するUVOSAMという新しいパラダイムを提案する。
SAMのインスタンス発見・識別関連における限界に対処するため,前景オブジェクトの軌跡を自動的に生成するビデオ有向物体追跡ネットワークを導入する。
これらの軌道はSAMがフレーム単位でビデオマスクを作成するためのプロンプトとして機能する。
実験の結果,UVOSAMは現在のマスク管理法よりも優れていた。
これらの結果から, UVOSAMは教師なしビデオオブジェクトのセグメンテーションを改善し, 手動アノテーションのコストを低減できる可能性が示唆された。
関連論文リスト
- MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - SAM-PD: How Far Can SAM Take Us in Tracking and Segmenting Anything in
Videos by Prompt Denoising [37.216493829454706]
ビデオ中のオブジェクトの追跡とセグメンテーションにセグメンション・任意のモデルを適用する可能性について検討する。
具体的には、次のフレームのプロンプトとして、前フレーム内の各オブジェクトのマスクのバウンディングボックスを反復的に伝播する。
そこで本研究では,SAMの位置と大きさの変動に対する認知能力を高めるために,マルチプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:52:59Z) - Propagating Semantic Labels in Video Data [0.0]
本研究では,映像中のオブジェクトのセグメンテーションを行う手法を提案する。
ビデオのフレームでオブジェクトが見つかると、セグメントは将来のフレームに伝達される。
この方法はSAMとStructure from Motionを組み合わせることで機能する。
論文 参考訳(メタデータ) (2023-10-01T20:32:26Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring
Video Object Segmentation [16.83885487855187]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に整合させ、融合させるために、パラメータ効率のチューニング戦略を用いる。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。