論文の概要: Self-supervised Video Object Segmentation by Motion Grouping
- arxiv url: http://arxiv.org/abs/2104.07658v1
- Date: Thu, 15 Apr 2021 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:43:58.007437
- Title: Self-supervised Video Object Segmentation by Motion Grouping
- Title(参考訳): モーショングルーピングによる自己監督型ビデオオブジェクトセグメンテーション
- Authors: Charig Yang, Hala Lamdouar, Erika Lu, Andrew Zisserman, Weidi Xie
- Abstract要約: 動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
- 参考スコア(独自算出の注目度): 79.13206959575228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Animals have evolved highly functional visual systems to understand motion,
assisting perception even under complex environments. In this paper, we work
towards developing a computer vision system able to segment objects by
exploiting motion cues, i.e. motion segmentation. We make the following
contributions: First, we introduce a simple variant of the Transformer to
segment optical flow frames into primary objects and the background. Second, we
train the architecture in a self-supervised manner, i.e. without using any
manual annotations. Third, we analyze several critical components of our method
and conduct thorough ablation studies to validate their necessity. Fourth, we
evaluate the proposed architecture on public benchmarks (DAVIS2016, SegTrackv2,
and FBMS59). Despite using only optical flow as input, our approach achieves
superior or comparable results to previous state-of-the-art self-supervised
methods, while being an order of magnitude faster. We additionally evaluate on
a challenging camouflage dataset (MoCA), significantly outperforming the other
self-supervised approaches, and comparing favourably to the top supervised
approach, highlighting the importance of motion cues, and the potential bias
towards visual appearance in existing video segmentation models.
- Abstract(参考訳): 動物は運動を理解するために高度に機能的な視覚システムを進化させ、複雑な環境下でも知覚を補助している。
本稿では,動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムの開発に向けて研究する。
動きのセグメンテーション。
まず、光学フローフレームを一次オブジェクトと背景に分割する簡単なトランスフォーマを導入する。
第二に、アーキテクチャを自己管理的な方法でトレーニングする。
手動アノテーションを使わずに。
第3に,本手法のいくつかの重要な要素を分析し,その必要性を検証するために徹底的なアブレーション研究を行う。
第4に,提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
光フローのみを入力として使用するが、従来の最先端の自己監視手法に匹敵する結果が得られる一方で、桁違いに高速である。
さらに,既存のビデオセグメンテーションモデルにおける視覚的出現に対するバイアスを強調し,他の自己監督的アプローチを著しく上回り,上位監督的アプローチと良好に比較し,挑戦的カモフラージュデータセット(MoCA)を評価した。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。