論文の概要: Learning To Segment Dominant Object Motion From Watching Videos
- arxiv url: http://arxiv.org/abs/2111.14160v1
- Date: Sun, 28 Nov 2021 14:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:07:25.232170
- Title: Learning To Segment Dominant Object Motion From Watching Videos
- Title(参考訳): ビデオ視聴から支配的な物体の動きを分割する学習
- Authors: Sahir Shrestha, Mohammad Ali Armin, Hongdong Li, Nick Barnes
- Abstract要約: 我々は,有意な移動物体セグメンテーションのための単純なフレームワークを構想する。このフレームワークは,有意なデータを必要としないし,有意な前処理や事前学習された光フローマップに依存しない。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力として、RGBイメージペアのみを使用して、支配的なフォアグラウンドオブジェクトのセグメンテーションを学習することができる。
- 参考スコア(独自算出の注目度): 72.57852930273256
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing deep learning based unsupervised video object segmentation methods
still rely on ground-truth segmentation masks to train. Unsupervised in this
context only means that no annotated frames are used during inference. As
obtaining ground-truth segmentation masks for real image scenes is a laborious
task, we envision a simple framework for dominant moving object segmentation
that neither requires annotated data to train nor relies on saliency priors or
pre-trained optical flow maps. Inspired by a layered image representation, we
introduce a technique to group pixel regions according to their affine
parametric motion. This enables our network to learn segmentation of the
dominant foreground object using only RGB image pairs as input for both
training and inference. We establish a baseline for this novel task using a new
MovingCars dataset and show competitive performance against recent methods that
require annotated masks to train.
- Abstract(参考訳): 既存のディープラーニングに基づく教師なしビデオオブジェクトセグメンテーション手法は、まだトレーニングに地平線セグメンテーションマスクに依存している。
この文脈で教師なしとは、推論中に注釈付きフレームは使用されないことを意味する。
実写シーンの接地トラストセグメンテーションマスクの取得は手間がかかる作業であるので,注記データや事前学習した光フローマップに依存しない,支配的な移動物体セグメンテーションのための単純なフレームワークを構想する。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力としてRGBイメージペアのみを使用して、支配的な前景オブジェクトのセグメンテーションを学習することができる。
新しいMovingCarsデータセットを使用して、この新しいタスクのベースラインを確立し、アノテートマスクのトレーニングを必要とする最近の手法に対する競争性能を示す。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - CYBORGS: Contrastively Bootstrapping Object Representations by Grounding
in Segmentation [22.89327564484357]
本稿では,表現とセグメンテーションの協調学習を通じて,この目標を達成するフレームワークを提案する。
これら2つのコンポーネントを反復することにより、セグメンテーション情報のコントラスト更新を行い、プレトレーニングを通じてセグメンテーションを改善する。
論文 参考訳(メタデータ) (2022-03-17T14:20:05Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos [59.12750806239545]
動画は移動成分によって同じシーンを異なる視点で見ることができ、適切な領域分割と領域フローは相互のビュー合成を可能にする。
モデルでは,1枚の画像に対して特徴に基づく領域分割を出力する出現経路と,1枚の画像に対して動作特徴を出力する動き経路の2つの経路から開始する。
セグメントフローに基づく視線合成誤差を最小限に抑えるためにモデルを訓練することにより、我々の外観経路と運動経路は、それぞれ低レベルのエッジや光フローから構築することなく、領域のセグメンテーションとフロー推定を自動的に学習する。
論文 参考訳(メタデータ) (2021-11-11T18:59:11Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - Footprints and Free Space from a Single Color Image [32.57664001590537]
入力として1つのRGB画像が与えられた場合、可視面と隠蔽面の両方の形状を予測するモデルを導入する。
ステレオビデオシーケンスから、カメラポーズ、フレームごとの深さ、セマンティックセグメンテーションを用いて学習し、トレーニングデータを形成する。
トレーニングシーンの空間的カバレッジには驚くほど低いバーが必要であることが分かりました。
論文 参考訳(メタデータ) (2020-04-14T09:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。