論文の概要: A Simple and Powerful Global Optimization for Unsupervised Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2209.09341v1
- Date: Mon, 19 Sep 2022 20:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:27:48.104692
- Title: A Simple and Powerful Global Optimization for Unsupervised Video Object
Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションのための単純かつ強力なグローバル最適化
- Authors: Georgy Ponimatkin, Nermin Samet, Yang Xiao, Yuming Du, Renaud Marlet,
Vincent Lepetit
- Abstract要約: 本稿では,入力シーケンス上の主有能物体のマスクを最小限に表現した目的関数を提案する。
これは、スーパーピクセルやスパシフィケーションを必要とせず、シーケンスの長さでスケールする。
本手法は,標準ベンチマークにおける技術状況と同等の性能を示す。
- 参考スコア(独自算出の注目度): 33.469231290489844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple, yet powerful approach for unsupervised object
segmentation in videos. We introduce an objective function whose minimum
represents the mask of the main salient object over the input sequence. It only
relies on independent image features and optical flows, which can be obtained
using off-the-shelf self-supervised methods. It scales with the length of the
sequence with no need for superpixels or sparsification, and it generalizes to
different datasets without any specific training. This objective function can
actually be derived from a form of spectral clustering applied to the entire
video. Our method achieves on-par performance with the state of the art on
standard benchmarks (DAVIS2016, SegTrack-v2, FBMS59), while being conceptually
and practically much simpler. Code is available at
https://ponimatkin.github.io/ssl-vos.
- Abstract(参考訳): ビデオにおける教師なしオブジェクトセグメンテーションのためのシンプルで強力なアプローチを提案する。
本稿では,入力シーケンス上の主有能物体のマスクを最小に表現した目的関数を提案する。
独立した画像の特徴と光学フローにのみ依存しており、市販の自己監督手法で得られる。
スーパーピクセルやスパーシフィケーションを必要とせず、シーケンスの長さに合わせてスケールし、特定のトレーニングなしで異なるデータセットに一般化する。
この目的関数は、ビデオ全体に適用されるスペクトルクラスタリングの形式から導出することができる。
本手法は,標準ベンチマーク (davis2016, segtrack-v2, fbms59) の技術水準と同等の性能を実現し, 概念的にも実質的にもよりシンプルである。
コードはhttps://ponimatkin.github.io/ssl-vosで入手できる。
関連論文リスト
- DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Unified Perception: Efficient Depth-Aware Video Panoptic Segmentation
with Minimal Annotation Costs [2.7920304852537536]
ビデオベースのトレーニングを必要とせずに最先端のパフォーマンスを実現するための,Unified Perceptionという新しいアプローチを提案する。
本手法では,画像ベースネットワークで計算されたオブジェクトの埋め込みを (再) 利用する,単純な2段階のカスケード追跡アルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-03-03T15:00:12Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - A Transductive Approach for Video Object Segmentation [55.83842083823267]
半教師付きビデオオブジェクトセグメンテーションは、第1フレームのマスクを考えると、対象オブジェクトをビデオシーケンスから分離することを目的としている。
現在の一般的な手法のほとんどは、光学フローやインスタンスセグメンテーションといった他の領域で訓練された追加モジュールの情報を利用する。
本稿では,モジュールやデータセット,専用のアーキテクチャ設計を必要としない,単純かつ強力なトランスダクティブ手法を提案する。
論文 参考訳(メタデータ) (2020-04-15T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。