論文の概要: Understanding Depth Map Progressively: Adaptive Distance Interval
Separation for Monocular 3d Object Detection
- arxiv url: http://arxiv.org/abs/2306.10921v1
- Date: Mon, 19 Jun 2023 13:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:47:51.938710
- Title: Understanding Depth Map Progressively: Adaptive Distance Interval
Separation for Monocular 3d Object Detection
- Title(参考訳): 深度マップの段階的理解:単眼3次元物体検出のための適応距離間隔分離
- Authors: Xianhui Cheng, Shoumeng Qiu, Zhikang Zou, Jian Pu and Xiangyang Xue
- Abstract要約: いくつかの単分子3D検出技術は、深度推定タスクからの補助深度マップに依存している。
本稿では,深度マップの新たな視点を取り入れたAdaptive Distance Interval Separation Network (ADISN) というフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.96129204108353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D object detection aims to locate objects in different scenes with
just a single image. Due to the absence of depth information, several monocular
3D detection techniques have emerged that rely on auxiliary depth maps from the
depth estimation task. There are multiple approaches to understanding the
representation of depth maps, including treating them as pseudo-LiDAR point
clouds, leveraging implicit end-to-end learning of depth information, or
considering them as an image input. However, these methods have certain
drawbacks, such as their reliance on the accuracy of estimated depth maps and
suboptimal utilization of depth maps due to their image-based nature. While
LiDAR-based methods and convolutional neural networks (CNNs) can be utilized
for pseudo point clouds and depth maps, respectively, it is always an
alternative. In this paper, we propose a framework named the Adaptive Distance
Interval Separation Network (ADISN) that adopts a novel perspective on
understanding depth maps, as a form that lies between LiDAR and images. We
utilize an adaptive separation approach that partitions the depth map into
various subgraphs based on distance and treats each of these subgraphs as an
individual image for feature extraction. After adaptive separations, each
subgraph solely contains pixels within a learned interval range. If there is a
truncated object within this range, an evident curved edge will appear, which
we can leverage for texture extraction using CNNs to obtain rich depth
information in pixels. Meanwhile, to mitigate the inaccuracy of depth
estimation, we designed an uncertainty module. To take advantage of both images
and depth maps, we use different branches to learn localization detection tasks
and appearance tasks separately.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、単一の画像で異なるシーンのオブジェクトを見つけることを目的としている。
深度情報がないため、深度推定タスクからの補助深度マップに依存する複数の単眼3D検出技術が出現している。
深度マップの表現を理解するには、擬似LiDAR点雲として扱うこと、深度情報の暗黙のエンドツーエンド学習を活用すること、イメージ入力として考慮することなど、複数のアプローチがある。
しかし, これらの手法は, 推定深度マップの精度や, 画像による深度マップの最適利用など, ある程度の欠点がある。
LiDARベースの手法と畳み込みニューラルネットワーク(CNN)は、それぞれ擬似点雲と深度マップに利用できるが、常に代替手段である。
本稿では,LiDARと画像の間に位置する形式として,深度マップの新たな視点を取り入れたAdaptive Distance Interval Separation Network (ADISN) というフレームワークを提案する。
本研究では,深度マップを各部分グラフに分割し,各部分グラフを特徴抽出のための個別画像として扱う適応的分離手法を提案する。
適応分離後、各サブグラフは学習区間範囲内の画素のみを含む。
この範囲内に被写体が存在する場合、明らかな湾曲エッジが現れ、CNNを用いたテクスチャ抽出に活用してピクセルの深度情報を得ることができる。
一方,深度推定の不正確さを軽減するため,不確実性モジュールを設計した。
画像と深度マップの両方を活用するために,異なる枝を使って位置検出タスクと出現タスクを別々に学習する。
関連論文リスト
- Facial Depth and Normal Estimation using Single Dual-Pixel Camera [81.02680586859105]
DP指向のDepth/Normalネットワークを導入し,3次元顔形状を再構成する。
これは、メートル法スケールでの深度マップと表面正規を含む、対応する地上3次元モデルを含んでいる。
近年のDPベース深度/正規推定法で最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-11-25T05:59:27Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Predicting Relative Depth between Objects from Semantic Features [2.127049691404299]
2D画像に描かれた物体の3D深度は、そのような特徴の一つです。
この領域における技術の現状は、ステレオ画像データに基づいて訓練された複雑なニューラルネットワークモデルであり、ピクセルごとの深さを予測する。
モノディープスモデルから計算した相対深度に対する相対深度精度の14%の総合的な増加が達成された。
論文 参考訳(メタデータ) (2021-01-12T17:28:23Z) - Learning a Geometric Representation for Data-Efficient Depth Estimation
via Gradient Field and Contrastive Loss [29.798579906253696]
本研究では、コンブネットがラベルのない画像で幾何学的情報を抽出するのを支援するために、運動量差の少ない勾配に基づく自己教師付き学習アルゴリズムを提案する。
提案手法は,従来の自己教師付き学習アルゴリズムよりも優れ,ラベル付きデータの効率を3倍に向上させる。
論文 参考訳(メタデータ) (2020-11-06T06:47:19Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - Depth Edge Guided CNNs for Sparse Depth Upsampling [18.659087667114274]
ガイドされたスパース深度アップサンプリングは、アライメントされた高解像度カラー画像がガイダンスとして与えられるとき、不規則にサンプリングされたスパース深度マップをアップサンプリングすることを目的としている。
奥行き画像を用いたスパース・不規則深度画像から深度を復元するためのガイド付き畳み込み層を提案する。
実世界の屋内および合成屋外データセット上で,本手法を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2020-03-23T08:56:32Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。