論文の概要: Understanding Depth Map Progressively: Adaptive Distance Interval
Separation for Monocular 3d Object Detection
- arxiv url: http://arxiv.org/abs/2306.10921v1
- Date: Mon, 19 Jun 2023 13:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:47:51.938710
- Title: Understanding Depth Map Progressively: Adaptive Distance Interval
Separation for Monocular 3d Object Detection
- Title(参考訳): 深度マップの段階的理解:単眼3次元物体検出のための適応距離間隔分離
- Authors: Xianhui Cheng, Shoumeng Qiu, Zhikang Zou, Jian Pu and Xiangyang Xue
- Abstract要約: いくつかの単分子3D検出技術は、深度推定タスクからの補助深度マップに依存している。
本稿では,深度マップの新たな視点を取り入れたAdaptive Distance Interval Separation Network (ADISN) というフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.96129204108353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D object detection aims to locate objects in different scenes with
just a single image. Due to the absence of depth information, several monocular
3D detection techniques have emerged that rely on auxiliary depth maps from the
depth estimation task. There are multiple approaches to understanding the
representation of depth maps, including treating them as pseudo-LiDAR point
clouds, leveraging implicit end-to-end learning of depth information, or
considering them as an image input. However, these methods have certain
drawbacks, such as their reliance on the accuracy of estimated depth maps and
suboptimal utilization of depth maps due to their image-based nature. While
LiDAR-based methods and convolutional neural networks (CNNs) can be utilized
for pseudo point clouds and depth maps, respectively, it is always an
alternative. In this paper, we propose a framework named the Adaptive Distance
Interval Separation Network (ADISN) that adopts a novel perspective on
understanding depth maps, as a form that lies between LiDAR and images. We
utilize an adaptive separation approach that partitions the depth map into
various subgraphs based on distance and treats each of these subgraphs as an
individual image for feature extraction. After adaptive separations, each
subgraph solely contains pixels within a learned interval range. If there is a
truncated object within this range, an evident curved edge will appear, which
we can leverage for texture extraction using CNNs to obtain rich depth
information in pixels. Meanwhile, to mitigate the inaccuracy of depth
estimation, we designed an uncertainty module. To take advantage of both images
and depth maps, we use different branches to learn localization detection tasks
and appearance tasks separately.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、単一の画像で異なるシーンのオブジェクトを見つけることを目的としている。
深度情報がないため、深度推定タスクからの補助深度マップに依存する複数の単眼3D検出技術が出現している。
深度マップの表現を理解するには、擬似LiDAR点雲として扱うこと、深度情報の暗黙のエンドツーエンド学習を活用すること、イメージ入力として考慮することなど、複数のアプローチがある。
しかし, これらの手法は, 推定深度マップの精度や, 画像による深度マップの最適利用など, ある程度の欠点がある。
LiDARベースの手法と畳み込みニューラルネットワーク(CNN)は、それぞれ擬似点雲と深度マップに利用できるが、常に代替手段である。
本稿では,LiDARと画像の間に位置する形式として,深度マップの新たな視点を取り入れたAdaptive Distance Interval Separation Network (ADISN) というフレームワークを提案する。
本研究では,深度マップを各部分グラフに分割し,各部分グラフを特徴抽出のための個別画像として扱う適応的分離手法を提案する。
適応分離後、各サブグラフは学習区間範囲内の画素のみを含む。
この範囲内に被写体が存在する場合、明らかな湾曲エッジが現れ、CNNを用いたテクスチャ抽出に活用してピクセルの深度情報を得ることができる。
一方,深度推定の不正確さを軽減するため,不確実性モジュールを設計した。
画像と深度マップの両方を活用するために,異なる枝を使って位置検出タスクと出現タスクを別々に学習する。
関連論文リスト
- Refinement of Monocular Depth Maps via Multi-View Differentiable Rendering [4.717325308876748]
本稿では,複数の画像から一貫した詳細な深度マップを生成するための新しい手法を提案する。
我々は、位相的に完全だが計量的に不正確な深度マップを生成する単眼深度推定の進歩を活用する。
提案手法は,高密度で詳細で高品質な深度マップを作成でき,また屋内シナリオの挑戦も可能であり,最先端の深度復元手法よりも優れている。
論文 参考訳(メタデータ) (2024-10-04T18:50:28Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Depth-guided Texture Diffusion for Image Semantic Segmentation [47.46257473475867]
本稿では,この課題を効果的に解決するディープスガイド型テクスチャ拡散手法を提案する。
本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。
この拡張深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより,深度マップと画像との相違を効果的に橋渡しする。
論文 参考訳(メタデータ) (2024-08-17T04:55:03Z) - MonoCD: Monocular 3D Object Detection with Complementary Depths [9.186673054867866]
深度推定は単分子3次元物体検出に不可欠だが挑戦的なサブタスクである。
2つの新しい設計で深度の相補性を高めることを提案する。
KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-04-04T03:30:49Z) - Learning a Geometric Representation for Data-Efficient Depth Estimation
via Gradient Field and Contrastive Loss [29.798579906253696]
本研究では、コンブネットがラベルのない画像で幾何学的情報を抽出するのを支援するために、運動量差の少ない勾配に基づく自己教師付き学習アルゴリズムを提案する。
提案手法は,従来の自己教師付き学習アルゴリズムよりも優れ,ラベル付きデータの効率を3倍に向上させる。
論文 参考訳(メタデータ) (2020-11-06T06:47:19Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - Depth Edge Guided CNNs for Sparse Depth Upsampling [18.659087667114274]
ガイドされたスパース深度アップサンプリングは、アライメントされた高解像度カラー画像がガイダンスとして与えられるとき、不規則にサンプリングされたスパース深度マップをアップサンプリングすることを目的としている。
奥行き画像を用いたスパース・不規則深度画像から深度を復元するためのガイド付き畳み込み層を提案する。
実世界の屋内および合成屋外データセット上で,本手法を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2020-03-23T08:56:32Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。