論文の概要: Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency
- arxiv url: http://arxiv.org/abs/2102.02629v1
- Date: Thu, 4 Feb 2021 14:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:35:57.847144
- Title: Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency
- Title(参考訳): Instance-Aware Projection Consistency による動的シーンの単眼的深さの学習
- Authors: Seokju Lee, Sunghoon Im, Stephen Lin, In So Kweon
- Abstract要約: 本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
- 参考スコア(独自算出の注目度): 114.02182755620784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an end-to-end joint training framework that explicitly models
6-DoF motion of multiple dynamic objects, ego-motion and depth in a monocular
camera setup without supervision. Our technical contributions are three-fold.
First, we highlight the fundamental difference between inverse and forward
projection while modeling the individual motion of each rigid object, and
propose a geometrically correct projection pipeline using a neural forward
projection module. Second, we design a unified instance-aware photometric and
geometric consistency loss that holistically imposes self-supervisory signals
for every background and object region. Lastly, we introduce a general-purpose
auto-annotation scheme using any off-the-shelf instance segmentation and
optical flow models to produce video instance segmentation maps that will be
utilized as input to our training pipeline. These proposed elements are
validated in a detailed ablation study. Through extensive experiments conducted
on the KITTI and Cityscapes dataset, our framework is shown to outperform the
state-of-the-art depth and motion estimation methods. Our code, dataset, and
models are available at https://github.com/SeokjuLee/Insta-DM .
- Abstract(参考訳): 本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
私たちの技術貢献は3倍です。
まず、各剛体物体の個々の動きをモデル化しながら、逆投影と前方投影の基本的な違いを強調し、ニューラルフォワードプロジェクションモジュールを用いた幾何的補正プロジェクションパイプラインを提案する。
第2に,各背景領域と対象領域に自己スーパーバイザリー信号を与える,統一的なインスタンス認識型フォトメトリックと幾何学的一貫性の損失をデザインする。
最後に,オフザシェルフインスタンスセグメンテーションと光フローモデルを用いて,トレーニングパイプラインの入力として使用されるビデオインスタンスセグメンテーションマップを生成する汎用的な自動アノテーション方式を提案する。
これらの要素は詳細なアブレーション研究で検証される。
kittiとcityscapesデータセットで行った広範囲な実験を通じて,最先端の奥行き推定手法と動き推定手法に勝ることを示す。
私たちのコード、データセット、モデルはhttps://github.com/SeokjuLee/Insta-DM で利用可能です。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry [7.067145619709089]
我々は,我々の自己教師型モデルが「鐘と笛なしで」最先端のパフォーマンスに到達できることを実証した。
全てのデータセットに対して,本手法は,特に深度予測タスクにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-16T17:24:20Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - UniQuadric: A SLAM Backend for Unknown Rigid Object 3D Tracking and
Light-Weight Modeling [7.626461564400769]
本稿では,エゴモーショントラッキング,剛体オブジェクトモーショントラッキング,モデリングを統一するSLAMバックエンドを提案する。
本システムは,複雑な動的シーンにおける物体知覚の潜在的な応用を実証する。
論文 参考訳(メタデータ) (2023-09-29T07:50:09Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。