論文の概要: Object Semantics Give Us the Depth We Need: Multi-task Approach to
Aerial Depth Completion
- arxiv url: http://arxiv.org/abs/2304.12542v1
- Date: Tue, 25 Apr 2023 03:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:10:32.937327
- Title: Object Semantics Give Us the Depth We Need: Multi-task Approach to
Aerial Depth Completion
- Title(参考訳): オブジェクトセマンティクスは私たちが必要とする深さを与える:空中深度補完へのマルチタスクアプローチ
- Authors: Sara Hatami Gazani, Fardad Dadboud, Miodrag Bolic, Iraj Mantegh,
Homayoun Najjaran
- Abstract要約: 本稿では,2つのタスクをひとつのパスで共同実行するための新しい手法を提案する。
提案手法は,2つのタスクを共同学習機能に公開するエンコーダに着目したマルチタスク学習モデルに基づく。
実験の結果,提案したマルチタスクネットワークはシングルタスクネットワークよりも優れていた。
- 参考スコア(独自算出の注目度): 1.2239546747355885
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Depth completion and object detection are two crucial tasks often used for
aerial 3D mapping, path planning, and collision avoidance of Uncrewed Aerial
Vehicles (UAVs). Common solutions include using measurements from a LiDAR
sensor; however, the generated point cloud is often sparse and irregular and
limits the system's capabilities in 3D rendering and safety-critical
decision-making. To mitigate this challenge, information from other sensors on
the UAV (viz., a camera used for object detection) is utilized to help the
depth completion process generate denser 3D models. Performing both aerial
depth completion and object detection tasks while fusing the data from the two
sensors poses a challenge to resource efficiency. We address this challenge by
proposing a novel approach to jointly execute the two tasks in a single pass.
The proposed method is based on an encoder-focused multi-task learning model
that exposes the two tasks to jointly learned features. We demonstrate how
semantic expectations of the objects in the scene learned by the object
detection pathway can boost the performance of the depth completion pathway
while placing the missing depth values. Experimental results show that the
proposed multi-task network outperforms its single-task counterpart,
particularly when exposed to defective inputs.
- Abstract(参考訳): 深度完了と物体検出は、しばしば空中3Dマッピング、経路計画、無人航空機(UAV)の衝突回避に使用される2つの重要なタスクである。
一般的な解決策としては、LiDARセンサーによる測定があるが、生成された点雲はスパースで不規則であり、3Dレンダリングと安全クリティカルな意思決定におけるシステムの能力を制限していることが多い。
この課題を軽減するために、UAV上の他のセンサー(オブジェクト検出に使用されるカメラ)からの情報を利用して、深度補正プロセスがより高密度な3Dモデルを生成するのに役立つ。
2つのセンサーからのデータを融合させながら、空中深度補完と物体検出の両方を実行することは、資源効率に課題をもたらす。
本稿では,2つのタスクをひとつのパスで共同実行するための新しいアプローチを提案する。
提案手法は,2つのタスクを共同学習機能に公開するエンコーダに着目したマルチタスク学習モデルに基づく。
物体検出経路によって学習されたシーンにおける物体の意味的期待が、不足した深さ値を置きながら深さ完了経路の性能をいかに高めるかを示す。
実験の結果,提案するマルチタスクネットワークは,特に欠陥入力に対して,シングルタスクネットワークよりも優れていることがわかった。
関連論文リスト
- OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - Depth-discriminative Metric Learning for Monocular 3D Object Detection [14.554132525651868]
本稿では,視覚的属性に関係なく,モデルが深度識別的特徴を抽出することを奨励する新しい計量学習手法を提案する。
本手法は, 各種ベースラインの性能を平均23.51%, 5.78%向上させる。
論文 参考訳(メタデータ) (2024-01-02T07:34:09Z) - MonoTDP: Twin Depth Perception for Monocular 3D Object Detection in
Adverse Scenes [49.21187418886508]
本論文は,モノTDP(MonoTDP)と呼ばれる悪シーンにおける2つの深度を知覚するモノクル3次元検出モデルを提案する。
まず、制御不能な気象条件を扱うモデルを支援するための適応学習戦略を導入し、様々な劣化要因による劣化を著しく抑制する。
そこで本研究では, シーン深度と物体深度を同時に推定する新たな2つの深度認識モジュールを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:42:02Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。
実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文 参考訳(メタデータ) (2020-12-22T22:49:15Z) - Monocular 3D Object Detection with Sequential Feature Association and
Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。
専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。
この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文 参考訳(メタデータ) (2020-11-30T07:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。