論文の概要: Unsupervised Learning of Depth, Camera Pose and Optical Flow from
Monocular Video
- arxiv url: http://arxiv.org/abs/2205.09821v1
- Date: Thu, 19 May 2022 19:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 13:14:20.958225
- Title: Unsupervised Learning of Depth, Camera Pose and Optical Flow from
Monocular Video
- Title(参考訳): 単眼映像からの深度・カメラポーズ・光流れの教師なし学習
- Authors: Dipan Mandal, Abhilash Jain, Sreenivas Subramoney
- Abstract要約: DFPNet - 単眼深度・光流・移動推定のための教師なし共同学習システム。
この事実を利用して、3つのコンポーネントをエンドツーエンドで共同でトレーニングします。
我々は、最先端DFPモデルのモデルサイズを5%未満(8.4Mパラメータ)に削減することができる。
- 参考スコア(独自算出の注目度): 3.838877984537827
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose DFPNet -- an unsupervised, joint learning system for monocular
Depth, Optical Flow and egomotion (Camera Pose) estimation from monocular image
sequences. Due to the nature of 3D scene geometry these three components are
coupled. We leverage this fact to jointly train all the three components in an
end-to-end manner. A single composite loss function -- which involves image
reconstruction-based loss for depth & optical flow, bidirectional consistency
checks and smoothness loss components -- is used to train the network. Using
hyperparameter tuning, we are able to reduce the model size to less than 5%
(8.4M parameters) of state-of-the-art DFP models. Evaluation on KITTI and
Cityscapes driving datasets reveals that our model achieves results comparable
to state-of-the-art in all of the three tasks, even with the significantly
smaller model size.
- Abstract(参考訳): 単眼画像列からの単眼深度・光流・自我(カメラポーズ)推定のための非教師付き共同学習システムDFPNetを提案する。
3次元シーン幾何学の性質からこれら3つのコンポーネントは結合される。
この事実を利用して、3つのコンポーネントをエンドツーエンドで共同でトレーニングします。
ネットワークのトレーニングには,画像再構成による深度・光流の損失,双方向の整合性チェック,スムーズな損失成分を含む複合損失関数が使用される。
ハイパーパラメータチューニングを使用することで、最先端DFPモデルのモデルサイズを5%未満(8.4Mパラメータ)に削減できる。
kitti と cityscapes driving datasets の評価では,モデルのサイズが大幅に小さくても,3つのタスクすべてにおいて最先端に匹敵する結果が得られた。
関連論文リスト
- Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - CbwLoss: Constrained Bidirectional Weighted Loss for Self-supervised
Learning of Depth and Pose [13.581694284209885]
光度差は、未ラベルのモノクロビデオから深度とカメラのポーズを推定するためにニューラルネットワークを訓練するために使用される。
本稿では,アフィン変換とビュー合成によって生じる流れ場と深さ構造の違いを利用して,移動物体とオクルージョンを取り扱う。
ネットワークを追加することなく、より意味的な情報と文脈的な情報を持つ特徴の差を測定することにより、テクスチャレス領域がモデル最適化に与える影響を緩和する。
論文 参考訳(メタデータ) (2022-12-12T12:18:24Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation
Synergized with Semantic Segmentation for Autonomous Driving [37.50089104051591]
モノクル深度推定のための最先端の自己教師型学習アプローチは、通常、スケールの曖昧さに悩まされる。
本稿では,魚眼カメラ画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するための,新しいマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T10:52:47Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z) - Self-Supervised Monocular Scene Flow Estimation [27.477810324117016]
本稿では,競争精度とリアルタイム性能を両立させる新しい単眼シーンフロー法を提案する。
逆問題の観点から、深度と3次元運動を同時に推定する単一畳み込みニューラルネットワーク(CNN)を設計する。
論文 参考訳(メタデータ) (2020-04-08T17:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。