論文の概要: Self-supervised monocular depth estimation from oblique UAV videos
- arxiv url: http://arxiv.org/abs/2012.10704v1
- Date: Sat, 19 Dec 2020 14:53:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 11:11:26.310791
- Title: Self-supervised monocular depth estimation from oblique UAV videos
- Title(参考訳): 斜めUAVビデオからの自己教師付き単眼深度推定
- Authors: Logambal Madhuanand, Francesco Nex, Michael Ying Yang
- Abstract要約: 本論文では, 深層学習を用いて, 単一のUAV空中画像から深度を推定する。
連続時間フレームから情報を抽出する2次元CNNエンコーダと3次元CNNデコーダを備えた新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 8.876469413317341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: UAVs have become an essential photogrammetric measurement as they are
affordable, easily accessible and versatile. Aerial images captured from UAVs
have applications in small and large scale texture mapping, 3D modelling,
object detection tasks, DTM and DSM generation etc. Photogrammetric techniques
are routinely used for 3D reconstruction from UAV images where multiple images
of the same scene are acquired. Developments in computer vision and deep
learning techniques have made Single Image Depth Estimation (SIDE) a field of
intense research. Using SIDE techniques on UAV images can overcome the need for
multiple images for 3D reconstruction. This paper aims to estimate depth from a
single UAV aerial image using deep learning. We follow a self-supervised
learning approach, Self-Supervised Monocular Depth Estimation (SMDE), which
does not need ground truth depth or any extra information other than images for
learning to estimate depth. Monocular video frames are used for training the
deep learning model which learns depth and pose information jointly through two
different networks, one each for depth and pose. The predicted depth and pose
are used to reconstruct one image from the viewpoint of another image utilising
the temporal information from videos. We propose a novel architecture with two
2D CNN encoders and a 3D CNN decoder for extracting information from
consecutive temporal frames. A contrastive loss term is introduced for
improving the quality of image generation. Our experiments are carried out on
the public UAVid video dataset. The experimental results demonstrate that our
model outperforms the state-of-the-art methods in estimating the depths.
- Abstract(参考訳): UAVは安価で使いやすく、汎用性が高いため、重要な測光装置となっている。
UAVから撮影した空中画像は、小型で大規模なテクスチャマッピング、3Dモデリング、オブジェクト検出タスク、DTMおよびDSM生成などに適用できる。
光グラム技術は、同じシーンの複数の画像を取得するUAV画像からの3次元再構成に日常的に使用される。
コンピュータビジョンとディープラーニング技術の発展により、SIDE(Single Image Depth Estimation)は強力な研究分野となった。
UAV画像におけるSIDE技術を用いることで、3次元再構成のための複数の画像の必要性を克服することができる。
本稿では, 深度学習を用いて, 一つのUAV空中画像から深度を推定することを目的とする。
我々は,自己教師付き学習手法である自己教師付き単眼深度推定 (smde) について述べる。
深度を学習し、2つの異なるネットワークを介して協調して情報をポーズする深層学習モデルのトレーニングには、単眼ビデオフレームが使用される。
予測深度とポーズを用いて、映像からの時間情報を利用した別の画像から1つの画像を再構成する。
本稿では,2次元CNNエンコーダと3次元CNNデコーダを用いて,時系列フレームから情報を抽出する新しいアーキテクチャを提案する。
画像生成の品質を向上させるために、対比的損失項を導入する。
公開UAVidビデオデータセットを用いて実験を行った。
実験の結果,本モデルは最先端手法よりも奥行き推定に優れていることがわかった。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Motion Degeneracy in Self-supervised Learning of Elevation Angle
Estimation for 2D Forward-Looking Sonar [4.683630397028384]
本研究は, 合成画像を用いた事前学習を行なわずに, 高度角推定の安定な自己教師付き学習を実現することを目的とする。
まず,主監督信号に関連する2次元前方ソナーの運動場を解析する。
論文 参考訳(メタデータ) (2023-07-30T08:06:11Z) - Lightweight Monocular Depth Estimation [4.19709743271943]
画像セグメンテーションネットワークのUnet構造を入力として,単一のRGB画像のみを与えられた各画素の深さ値を予測するために,軽量な機械学習モデルを構築した。
提案手法は比較的高精度かつ低ルート平均二乗誤差を実現する。
論文 参考訳(メタデータ) (2022-12-21T21:05:16Z) - Depth Is All You Need for Monocular 3D Detection [29.403235118234747]
教師なしの方法で対象領域に深度表現を合わせることを提案する。
本手法では, トレーニング時間中に利用可能なLiDARやRGBビデオを利用して深度表現を微調整し, 改良された3D検出器を実現する。
論文 参考訳(メタデータ) (2022-10-05T18:12:30Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Real-time dense 3D Reconstruction from monocular video data captured by
low-cost UAVs [0.3867363075280543]
リアルタイム3d再構築は,ナビゲーションや緊急時のライブ評価など,多数のアプリケーションにメリットがある環境の高速密マッピングを可能にする。
ほとんどのリアルタイム対応のアプローチとは対照的に、我々のアプローチは明示的な深度センサーを必要としない。
建物周辺を斜め視で飛行する無人航空機(UAV)の自己動作を利用して、選択された画像のカメラ軌道と深度の両方を、十分な新規な内容で推定します。
論文 参考訳(メタデータ) (2021-04-21T13:12:17Z) - Self-Attention Dense Depth Estimation Network for Unrectified Video
Sequences [6.821598757786515]
LiDARとレーダーセンサーはリアルタイム深度推定のためのハードウェアソリューションである。
深層学習に基づく自己教師付き深度推定法は有望な結果を示した。
未修正画像に対する自己注意に基づく深度・自我移動ネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-28T21:53:53Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。