論文の概要: Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation
- arxiv url: http://arxiv.org/abs/2110.06853v1
- Date: Wed, 13 Oct 2021 16:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:37:09.044966
- Title: Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation
- Title(参考訳): 関節奥行き・運動場推定のための注意・コントラスト学習
- Authors: Seokju Lee, Francois Rameau, Fei Pan, In So Kweon
- Abstract要約: 単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 76.58256020932312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the motion of the camera together with the 3D structure of the
scene from a monocular vision system is a complex task that often relies on the
so-called scene rigidity assumption. When observing a dynamic environment, this
assumption is violated which leads to an ambiguity between the ego-motion of
the camera and the motion of the objects. To solve this problem, we present a
self-supervised learning framework for 3D object motion field estimation from
monocular videos. Our contributions are two-fold. First, we propose a two-stage
projection pipeline to explicitly disentangle the camera ego-motion and the
object motions with dynamics attention module, called DAM. Specifically, we
design an integrated motion model that estimates the motion of the camera and
object in the first and second warping stages, respectively, controlled by the
attention module through a shared motion encoder. Second, we propose an object
motion field estimation through contrastive sample consensus, called CSAC,
taking advantage of weak semantic prior (bounding box from an object detector)
and geometric constraints (each object respects the rigid body motion model).
Experiments on KITTI, Cityscapes, and Waymo Open Dataset demonstrate the
relevance of our approach and show that our method outperforms state-of-the-art
algorithms for the tasks of self-supervised monocular depth estimation, object
motion segmentation, monocular scene flow estimation, and visual odometry.
- Abstract(参考訳): 単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは、しばしばいわゆるシーン剛性仮定に依存する複雑なタスクである。
ダイナミックな環境を観察する場合、この仮定は破られ、カメラのエゴモーションと物体の動きとのあいまいさが生じる。
そこで本研究では,単眼映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
私たちの貢献は2倍です。
まず,2段階のプロジェクションパイプラインを提案し,カメラの自走動作と物体の動きを動的アテンションモジュール(DAM)で明示的に切り離す。
具体的には、第1および第2のワープ段階におけるカメラと物体の動きをそれぞれ、共有モーションエンコーダを介してアテンションモジュールによって制御する統合モーションモデルの設計を行う。
第2に, 物体検出器からのバウンディングボックス) と幾何学的制約(各物体は剛体運動モデルを尊重する) を生かして, CSACと呼ばれる対照的なサンプルコンセンサスによる物体運動場推定を提案する。
KITTI,Cityscapes,Waymo Open Datasetの実験は,本手法の有効性を実証し,自己教師付き単眼深度推定,物体運動のセグメンテーション,モノクロシーンフロー推定,視覚計測などのタスクに対して,最先端のアルゴリズムより優れていることを示す。
関連論文リスト
- Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Dynamo-Depth: Fixing Unsupervised Depth Estimation for Dynamical Scenes [40.46121828229776]
ダイナモ・ディープス(Dynamo-Depth)は、単分子深度、3次元独立流れ場、およびラベルなし単分子ビデオからの運動セグメンテーションを共同学習することにより、動的運動を曖昧にするアプローチである。
提案手法は,移動物体の深度を著しく改善したオープンおよびヌースシーンにおける単眼深度推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-29T03:24:16Z) - Motion Segmentation from a Moving Monocular Camera [3.115818438802931]
我々は、点軌跡法と光フロー法という、単眼運動分割手法の2つの一般的な分岐を生かしている。
我々は異なるシーン構造で様々な複雑な物体の動きを同時にモデル化することができる。
提案手法は,KT3DMoSegデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2023-09-24T22:59:05Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。