論文の概要: The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos
- arxiv url: http://arxiv.org/abs/2111.06394v1
- Date: Thu, 11 Nov 2021 18:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 13:46:54.510454
- Title: The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos
- Title(参考訳): オブジェクトネスの出現:ビデオからゼロショットセグメンテーションを学ぶ
- Authors: Runtao Liu, Zhirong Wu, Stella X. Yu, Stephen Lin
- Abstract要約: 動画は移動成分によって同じシーンを異なる視点で見ることができ、適切な領域分割と領域フローは相互のビュー合成を可能にする。
モデルでは,1枚の画像に対して特徴に基づく領域分割を出力する出現経路と,1枚の画像に対して動作特徴を出力する動き経路の2つの経路から開始する。
セグメントフローに基づく視線合成誤差を最小限に抑えるためにモデルを訓練することにより、我々の外観経路と運動経路は、それぞれ低レベルのエッジや光フローから構築することなく、領域のセグメンテーションとフロー推定を自動的に学習する。
- 参考スコア(独自算出の注目度): 59.12750806239545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can easily segment moving objects without knowing what they are. That
objectness could emerge from continuous visual observations motivates us to
model grouping and movement concurrently from unlabeled videos. Our premise is
that a video has different views of the same scene related by moving
components, and the right region segmentation and region flow would allow
mutual view synthesis which can be checked from the data itself without any
external supervision. Our model starts with two separate pathways: an
appearance pathway that outputs feature-based region segmentation for a single
image, and a motion pathway that outputs motion features for a pair of images.
It then binds them in a conjoint representation called segment flow that pools
flow offsets over each region and provides a gross characterization of moving
regions for the entire scene. By training the model to minimize view synthesis
errors based on segment flow, our appearance and motion pathways learn region
segmentation and flow estimation automatically without building them up from
low-level edges or optical flows respectively. Our model demonstrates the
surprising emergence of objectness in the appearance pathway, surpassing prior
works on zero-shot object segmentation from an image, moving object
segmentation from a video with unsupervised test-time adaptation, and semantic
image segmentation by supervised fine-tuning. Our work is the first truly
end-to-end zero-shot object segmentation from videos. It not only develops
generic objectness for segmentation and tracking, but also outperforms
prevalent image-based contrastive learning methods without augmentation
engineering.
- Abstract(参考訳): 人間は動く物体を何であるかを知らずに簡単に分割することができる。
連続的な視覚的な観察からその目的が生まれると、私たちはグループ化をモデル化し、ラベルのないビデオから同時に動きます。
我々の前提は、動画は移動コンポーネントによって同じシーンの異なるビューを持ち、適切な領域分割と領域フローは、外部の監視なしにデータ自体からチェックできる相互ビュー合成を可能にすることである。
モデルでは,1つの画像に対して特徴に基づく領域分割を出力する出現経路と,1つの画像に対して動作特徴を出力する動き経路の2つから始める。
その後、セグメントフローと呼ばれる結合表現に結合し、各領域のオフセットをプールし、シーン全体の移動領域の全体的特徴を提供する。
セグメンテーションフローに基づくビュー合成誤差を最小化するためにモデルを訓練することにより,出現経路と運動経路は低レベルエッジや光フローから構築することなく,領域のセグメンテーションとフロー推定を自動的に学習する。
本モデルでは,画像からのゼロショットオブジェクトセグメンテーション,教師なしテスト時間適応によるビデオからのオブジェクトセグメンテーション,教師付き微調整によるセマンティックイメージセグメンテーションなど,外観経路におけるオブジェクトの驚くほどの出現を示す。
私たちの作品は、ビデオからの真にエンドツーエンドのゼロショットオブジェクトセグメンテーションです。
セグメンテーションとトラッキングのための汎用的オブジェクトネスを発達させるだけでなく、拡張工学を使わずに画像ベースのコントラスト学習方法よりも優れている。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models [28.304047711166056]
大規模事前訓練モデルでは、野生の2次元静的画像中の物体の検出とセグメンテーションの進歩が期待できる。
このような大規模なトレーニング済みの静的イメージモデルを,オープン語彙のビデオトラッキングに再利用することは可能だろうか?
本稿では,オープンボキャブラリ検出器,セグメンタ,高密度光流推定器を,任意のカテゴリの物体を2Dビデオで追跡・セグメント化するモデルに再構成する。
論文 参考訳(メタデータ) (2023-10-10T20:25:30Z) - Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual
Grouping [52.03068246508119]
ラベルのないビデオから学習対象のセグメンテーションを研究する。
画像セグメンタを一定のセグメントフローと小さな内部残留フローで近似した光流のループで学習する。
DAVIS16/STv2/FBMS59では,それぞれ7/9/5%の絶対利得が得られた。
論文 参考訳(メタデータ) (2023-04-17T07:18:21Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。