論文の概要: RM-Depth: Unsupervised Learning of Recurrent Monocular Depth in Dynamic
Scenes
- arxiv url: http://arxiv.org/abs/2303.04456v1
- Date: Wed, 8 Mar 2023 09:11:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 14:42:27.438178
- Title: RM-Depth: Unsupervised Learning of Recurrent Monocular Depth in Dynamic
Scenes
- Title(参考訳): rm-depth:動的シーンにおける繰り返し単眼深度の教師なし学習
- Authors: Tak-Wai Hui
- Abstract要約: 単分子深度と完全な3次元運動を共同で予測するための教師なし学習フレームワークが提案されている。
リカレント変調ユニットは、適応的かつ反復的にエンコーダとデコーダの特徴を融合するために使用される。
ワーピングに基づくネットワークは、セマンティック・プレファレンスを使わずに移動物体の運動場を推定するために用いられる。
- 参考スコア(独自算出の注目度): 7.81768535871051
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unsupervised methods have showed promising results on monocular depth
estimation. However, the training data must be captured in scenes without
moving objects. To push the envelope of accuracy, recent methods tend to
increase their model parameters. In this paper, an unsupervised learning
framework is proposed to jointly predict monocular depth and complete 3D motion
including the motions of moving objects and camera. (1) Recurrent modulation
units are used to adaptively and iteratively fuse encoder and decoder features.
This not only improves the single-image depth inference but also does not
overspend model parameters. (2) Instead of using a single set of filters for
upsampling, multiple sets of filters are devised for the residual upsampling.
This facilitates the learning of edge-preserving filters and leads to the
improved performance. (3) A warping-based network is used to estimate a motion
field of moving objects without using semantic priors. This breaks down the
requirement of scene rigidity and allows to use general videos for the
unsupervised learning. The motion field is further regularized by an
outlier-aware training loss. Despite the depth model just uses a single image
in test time and 2.97M parameters, it achieves state-of-the-art results on the
KITTI and Cityscapes benchmarks.
- Abstract(参考訳): 教師なし手法は単分子深度推定において有望な結果を示した。
しかし、トレーニングデータは、動くオブジェクトなしでシーンでキャプチャされなければならない。
精度を高めるために、最近の手法はモデルのパラメータを増やす傾向がある。
本稿では,移動物体やカメラの動きを含む,単眼深度と3次元運動の同時予測を目的とした教師なし学習フレームワークを提案する。
1) 繰り返し変調ユニットを用いて、エンコーダとデコーダの特徴を適応的かつ反復的に融合させる。
これはシングルイメージの深度推論を改善するだけでなく、モデルパラメータをオーバースプレッドする。
2)アップサンプリングに1組のフィルタを使用する代わりに、残差アップサンプリングのために複数のフィルタセットが考案される。
これにより、エッジ保存フィルタの学習が容易になり、パフォーマンスが向上する。
(3) ワーピングに基づくネットワークは,動作対象の運動場をセマンティックな先入観を使わずに推定する。
これにより、シーンの剛性が要求され、教師なし学習に一般的なビデオを使用することができる。
運動場は、アウトリア認識訓練損失によりさらに規則化される。
深度モデルはテスト時間に1つのイメージと2.97Mパラメータを使用するだけで、KITTIとCityscapesベンチマークで最先端の結果が得られる。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - RAUM-VO: Rotational Adjusted Unsupervised Monocular Visual Odometry [0.0]
本稿では,フレーム間動き推定のためのモデルフリーなエピポーラ制約に基づくRAUM-VOを提案する。
RAUM-VOは、KITTIデータセット上の他の教師なしポーズネットワークと比較してかなり精度が向上している。
論文 参考訳(メタデータ) (2022-03-14T15:03:24Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation
Synergized with Semantic Segmentation for Autonomous Driving [37.50089104051591]
モノクル深度推定のための最先端の自己教師型学習アプローチは、通常、スケールの曖昧さに悩まされる。
本稿では,魚眼カメラ画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するための,新しいマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T10:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。