論文の概要: M4Depth: A motion-based approach for monocular depth estimation on video
sequences
- arxiv url: http://arxiv.org/abs/2105.09847v1
- Date: Thu, 20 May 2021 15:46:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:32:47.849014
- Title: M4Depth: A motion-based approach for monocular depth estimation on video
sequences
- Title(参考訳): M4Depth:ビデオシーケンス上の単眼深度推定のためのモーションベースアプローチ
- Authors: Micha\"el Fonder and Damien Ernst and Marc Van Droogenbroeck
- Abstract要約: 本稿では、RGBビデオストリームとドローンの動き情報を用いて、搭載カメラで見る物体の距離を推定する手法を提案する。
本手法はピラミッド型畳み込みニューラルネットワークアーキテクチャ上に構築され,動きによる幾何的制約と組み合わせて時間繰り返しを用いて画素幅の深度マップを生成する。
- 参考スコア(独自算出の注目度): 12.574454799055026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Getting the distance to objects is crucial for autonomous vehicles. In
instances where depth sensors cannot be used, this distance has to be estimated
from RGB cameras. As opposed to cars, the task of estimating depth from
on-board mounted cameras is made complex on drones because of the lack of
constrains on motion during flights. %In the case of drones, this task is even
more complex than for car-mounted cameras since the camera motion is
unconstrained. In this paper, we present a method to estimate the distance of
objects seen by an on-board mounted camera by using its RGB video stream and
drone motion information. Our method is built upon a pyramidal convolutional
neural network architecture and uses time recurrence in pair with geometric
constraints imposed by motion to produce pixel-wise depth maps. %from a RGB
video stream of a camera attached to the drone In our architecture, each level
of the pyramid is designed to produce its own depth estimate based on past
observations and information provided by the previous level in the pyramid. We
introduce a spatial reprojection layer to maintain the spatio-temporal
consistency of the data between the levels. We analyse the performance of our
approach on Mid-Air, a public drone dataset featuring synthetic drone
trajectories recorded in a wide variety of unstructured outdoor environments.
Our experiments show that our network outperforms state-of-the-art depth
estimation methods and that the use of motion information is the main
contributing factor for this improvement. The code of our method is publicly
available on GitHub; see
$\href{https://github.com/michael-fonder/M4Depth}{\text{https://github.com/michael-fonder/M4Depth}}$
- Abstract(参考訳): 物体に近づくことは自動運転車にとって不可欠だ。
深度センサーが使用できない場合、rgbカメラからこの距離を推定する必要がある。
車とは対照的に、搭載されたカメラから深度を推定する作業は、飛行中の動きに制約がないため、ドローンでは複雑になる。
ドローンの場合、この作業はカメラの動きが制限されていないため、車載カメラよりもさらに複雑である。
本稿では,そのrgbビデオストリームとドローンの動き情報を用いて,搭載カメラで見る物体の距離を推定する手法を提案する。
本手法はピラミッド型畳み込みニューラルネットワークアーキテクチャ上に構築され,動きによる幾何的制約と組み合わせて時間繰り返しを用いて画素幅の深度マップを生成する。
%) で, ドローンに装着したカメラのrgbビデオストリームから, ピラミッドの各レベルは, ピラミッドの過去の観測値と過去のレベルから得られた情報に基づいて, それぞれの深さ推定値を生成するように設計されている。
空間的再投影層を導入し,各レベル間のデータの時空間的一貫性を維持する。
我々は,多種多様な非構造屋外環境において記録された合成ドローン軌跡を特徴とするドローンデータセットであるmid-airの性能解析を行った。
実験の結果,我々のネットワークは最先端の深度推定法よりも優れており,運動情報の利用が本改良の主な要因であることがわかった。
私たちのメソッドのコードはGitHubで公開されている。 $\href{https://github.com/michael-fonder/M4Depth}{\text{https://github.com/michael-fonder/M4Depth}}$
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - CrossDTR: Cross-view and Depth-guided Transformers for 3D Object
Detection [10.696619570924778]
そこで我々は,3次元物体検出のためのクロスビューおよび奥行き誘導変換器を提案する。
歩行者検出では既存のマルチカメラ手法を10%上回り,mAPとNDSの指標では約3%を上回りました。
論文 参考訳(メタデータ) (2022-09-27T16:23:12Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - EagerMOT: 3D Multi-Object Tracking via Sensor Fusion [68.8204255655161]
マルチオブジェクトトラッキング(MOT)により、移動ロボットは周囲の物体を3次元空間と時間で位置づけすることで、良好な動作計画とナビゲーションを行うことができる。
既存の方法は、深度センサー(例えばLiDAR)を使用して3D空間のターゲットを検出し追跡するが、信号の間隔が限られているため、検出範囲は限られている。
我々は,両方のセンサモダリティから利用可能な物体を全て統合し,シーンのダイナミックスを適切に解釈する簡易なトラッキング定式化であるeagermotを提案する。
論文 参考訳(メタデータ) (2021-04-29T22:30:29Z) - Multi-Modal Depth Estimation Using Convolutional Neural Networks [0.8701566919381223]
本論文では, 厳しい気象条件下での遠距離センサデータと単一カメラ画像からの深度予測について考察する。
ディープラーニングアプローチを適用して深度を推定するカメラ、レーダー、ライダーなど、さまざまなセンサーモダリティの重要性を探ります。
論文 参考訳(メタデータ) (2020-12-17T15:31:49Z) - Self-Attention Dense Depth Estimation Network for Unrectified Video
Sequences [6.821598757786515]
LiDARとレーダーセンサーはリアルタイム深度推定のためのハードウェアソリューションである。
深層学習に基づく自己教師付き深度推定法は有望な結果を示した。
未修正画像に対する自己注意に基づく深度・自我移動ネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-28T21:53:53Z) - DroTrack: High-speed Drone-based Object Tracking Under Uncertainty [0.23204178451683263]
DroTrackは、ドローンがキャプチャしたビデオシーケンスのための高速なビジュアル単一オブジェクト追跡フレームワークである。
ファジィC平均に基づく効果的なオブジェクトセグメンテーションを実装した。
また、幾何角運動を利用して信頼度の高い物体スケールを推定する。
論文 参考訳(メタデータ) (2020-05-02T13:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。