論文の概要: DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos
- arxiv url: http://arxiv.org/abs/2403.05895v1
- Date: Sat, 9 Mar 2024 12:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:52:07.057549
- Title: DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos
- Title(参考訳): DO3D:単眼映像からの物体認識3次元運動と深さの自己教師型学習
- Authors: Xiuzhe Wu, Xiaoyang Lyu, Qihao Huang, Yong Liu, Yang Wu, Ying Shan,
Xiaojuan Qi
- Abstract要約: 本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 76.01906393673897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although considerable advancements have been attained in self-supervised
depth estimation from monocular videos, most existing methods often treat all
objects in a video as static entities, which however violates the dynamic
nature of real-world scenes and fails to model the geometry and motion of
moving objects. In this paper, we propose a self-supervised method to jointly
learn 3D motion and depth from monocular videos. Our system contains a depth
estimation module to predict depth, and a new decomposed object-wise 3D motion
(DO3D) estimation module to predict ego-motion and 3D object motion. Depth and
motion networks work collaboratively to faithfully model the geometry and
dynamics of real-world scenes, which, in turn, benefits both depth and 3D
motion estimation. Their predictions are further combined to synthesize a novel
video frame for self-supervised training. As a core component of our framework,
DO3D is a new motion disentanglement module that learns to predict camera
ego-motion and instance-aware 3D object motion separately. To alleviate the
difficulties in estimating non-rigid 3D object motions, they are decomposed to
object-wise 6-DoF global transformations and a pixel-wise local 3D motion
deformation field. Qualitative and quantitative experiments are conducted on
three benchmark datasets, including KITTI, Cityscapes, and VKITTI2, where our
model delivers superior performance in all evaluated settings. For the depth
estimation task, our model outperforms all compared research works in the
high-resolution setting, attaining an absolute relative depth error (abs rel)
of 0.099 on the KITTI benchmark. Besides, our optical flow estimation results
(an overall EPE of 7.09 on KITTI) also surpass state-of-the-art methods and
largely improve the estimation of dynamic regions, demonstrating the
effectiveness of our motion model. Our code will be available.
- Abstract(参考訳): モノクロビデオからの自己監督深度推定においてかなりの進歩が達成されているが、既存の手法の多くは、ビデオ内の全ての物体を静的な実体として扱うが、現実のシーンの動的な性質に反し、動く物体の幾何学や動きをモデル化することができない。
本稿では,単眼映像から3次元動作と奥行きを共同学習する自己教師あり方式を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
深度と動きのネットワークは、現実世界のシーンの幾何学とダイナミクスを忠実にモデル化するために協力的に働く。
これらの予測を組み合わせることで、自己監督訓練のための新しいビデオフレームを合成する。
私たちのフレームワークのコアコンポーネントであるdo3dは、カメラのエゴモーションとインスタンス認識された3dオブジェクトの動きを別々に予測することを学ぶ新しいモーションアンタグルメントモジュールです。
非剛体3次元物体の運動を推定する困難さを軽減するため、オブジェクトワイド6-DoF大域変換と画素ワイド局所3次元運動変形場に分解する。
KITTI,Cityscapes,VKITTI2といった3つのベンチマークデータセットを用いて定性的,定量的な実験を行い,評価されたすべての設定において優れた性能を提供する。
深度推定タスクでは、KITTIベンチマークで0.099の絶対相対深度誤差 (abs rel) を達成し、高分解能設定における比較研究を全て上回っている。
さらに,光学的フロー推定結果(KITTIの7.09のEPE)も最先端手法を超越し,動的領域の推定を大幅に改善し,動作モデルの有効性を示した。
私たちのコードは利用可能です。
関連論文リスト
- AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Kinematics-Guided Reinforcement Learning for Object-Aware 3D Ego-Pose
Estimation [25.03715978502528]
本研究では,物体の相互作用と人体動態を3次元エゴ位置推定のタスクに組み込む手法を提案する。
我々は人体の運動モデルを用いて、人間の運動の全範囲を表現し、身体の力学モデルを用いて、物理学シミュレータ内の物体と相互作用する。
これは、エゴセントリックなビデオからオブジェクトと物理的に有効な3Dフルボディインタラクションシーケンスを推定する最初の試みである。
論文 参考訳(メタデータ) (2020-11-10T00:06:43Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。