論文の概要: RigNet++: Semantic Assisted Repetitive Image Guided Network for Depth
Completion
- arxiv url: http://arxiv.org/abs/2309.00655v4
- Date: Wed, 28 Feb 2024 06:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 18:53:27.245192
- Title: RigNet++: Semantic Assisted Repetitive Image Guided Network for Depth
Completion
- Title(参考訳): RigNet++: 深度補完のためのセマンティック支援反復画像ガイドネットワーク
- Authors: Zhiqiang Yan and Xiang Li and Le Hui and Zhenyu Zhang and Jun Li and
Jian Yang
- Abstract要約: 画像案内ネットワークにおける繰り返し設計を探索し、徐々に十分に深度を復元する。
前者では,複雑な環境の識別画像の特徴を抽出するために,高密度繰り返し時間ガラスネットワーク(DRHN)を設計する。
後者では,動的畳み込みに基づく反復誘導(RG)モジュールを提案する。
さらに,領域認識型空間伝搬ネットワーク(RASPN)を提案する。
- 参考スコア(独自算出の注目度): 31.70022495622075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth completion aims to recover dense depth maps from sparse ones, where
color images are often used to facilitate this task. Recent depth methods
primarily focus on image guided learning frameworks. However, blurry guidance
in the image and unclear structure in the depth still impede their performance.
To tackle these challenges, we explore a repetitive design in our image guided
network to gradually and sufficiently recover depth values. Specifically, the
repetition is embodied in both the image guidance branch and depth generation
branch. In the former branch, we design a dense repetitive hourglass network
(DRHN) to extract discriminative image features of complex environments, which
can provide powerful contextual instruction for depth prediction. In the latter
branch, we present a repetitive guidance (RG) module based on dynamic
convolution, in which an efficient convolution factorization is proposed to
reduce the complexity while modeling high-frequency structures progressively.
Furthermore, in the semantic guidance branch, we utilize the well-known large
vision model, i.e., segment anything (SAM), to supply RG with semantic prior.
In addition, we propose a region-aware spatial propagation network (RASPN) for
further depth refinement based on the semantic prior constraint. Finally, we
collect a new dataset termed TOFDC for the depth completion task, which is
acquired by the time-of-flight (TOF) sensor and the color camera on
smartphones. Extensive experiments demonstrate that our method achieves
state-of-the-art performance on KITTI, NYUv2, Matterport3D, 3D60, VKITTI, and
our TOFDC.
- Abstract(参考訳): 深度補完は、この作業を容易にするために色画像がしばしば使用される、疎密な深度マップを回収することを目的としている。
最近の深度法は主に画像誘導学習フレームワークに焦点をあてている。
しかし、画像のぼやけた指示と奥行きの曖昧な構造は、それでもその性能を損なう。
これらの課題に取り組むために,画像誘導ネットワークにおける繰り返し設計を探索し,深度値の段階的かつ十分に復元する。
具体的には、画像誘導分岐と深度生成分岐の両方に繰り返しを具現化する。
前者のブランチでは、複雑な環境の識別画像の特徴を抽出する高密度反復型時間ガラスネットワーク(DRHN)を設計し、深度予測のための強力な文脈的指示を提供する。
後者では,動的畳み込みに基づく反復的誘導(rg)モジュールを提案し,高頻度構造を漸進的にモデル化しながら複雑性を低減できる効率的な畳み込み分解を提案する。
さらに,semantic guidanceブランチでは,よく知られた大規模視覚モデルであるsegment anything(sam)を用いて,rgにsemantic priorを提供する。
さらに,領域認識型空間伝搬ネットワーク(RASPN)を提案する。
最後に,時間飛行(TOF)センサとスマートフォンのカラーカメラによって取得される深度完了タスクのためのTOFDCと呼ばれる新しいデータセットを収集する。
KITTI,NYUv2,Matterport3D,3D60,VKITTI,TOFDC上での最先端性能を実証した。
関連論文リスト
- Learning Pixel-wise Continuous Depth Representation via Clustering for
Depth Completion [0.0]
我々はCluDeと呼ばれる新しいクラスタリングベースのフレームワークを提案し、ピクセル単位で連続的な深度表現を学習する。
CluDeはピクセル単位で連続的な深度表現を利用することで、オブジェクト境界付近の深度スミアリングをうまく低減する。
CluDeはVOIDデータセットの最先端のパフォーマンスを達成し、KITTIデータセットの分類ベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-02-21T07:18:23Z) - AugUndo: Scaling Up Augmentations for Unsupervised Depth Completion [54.1925051672779]
そこで本稿では,教師なし深度補完のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいは「アンド」し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - A Real-Time Online Learning Framework for Joint 3D Reconstruction and
Semantic Segmentation of Indoor Scenes [87.74952229507096]
本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。
列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
論文 参考訳(メタデータ) (2021-08-11T14:29:01Z) - RigNet: Repetitive Image Guided Network for Depth Completion [20.66405067066299]
近年のアプローチは、高密度な結果を予測するためのイメージガイド学習に重点を置いている。
ぼやけたイメージガイダンスとオブジェクト構造は、まだイメージガイドされたフレームワークのパフォーマンスを妨げている。
画像案内ネットワークにおける反復的な設計を探索し,徐々に深度値の回復を図る。
提案手法は,NYUv2データセットの最先端化を実現し,提出時のKITTIベンチマークで1位にランクインする。
論文 参考訳(メタデータ) (2021-07-29T08:00:33Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - FCFR-Net: Feature Fusion based Coarse-to-Fine Residual Learning for
Monocular Depth Completion [15.01291779855834]
最近のアプローチは、主に1段階のエンドツーエンドの学習タスクとして深さの完成を定式化します。
深度完了を2段階学習タスクとして定式化する,新しいエンドツーエンドの残留学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T13:09:56Z) - Semantic-Guided Representation Enhancement for Self-supervised Monocular
Trained Depth Estimation [39.845944724079814]
自己教師付き深度推定は,画像列のみを入力として,高品質の深度マップを作成する上で大きな効果を示した。
しかし、その性能は通常、限界深度表現能力のために境界領域や細い構造を持つ物体を推定する際に低下する。
局所的および大域的な深度特徴表現を促進する意味誘導深度表現拡張法を提案する。
論文 参考訳(メタデータ) (2020-12-15T02:24:57Z) - Depth Edge Guided CNNs for Sparse Depth Upsampling [18.659087667114274]
ガイドされたスパース深度アップサンプリングは、アライメントされた高解像度カラー画像がガイダンスとして与えられるとき、不規則にサンプリングされたスパース深度マップをアップサンプリングすることを目的としている。
奥行き画像を用いたスパース・不規則深度画像から深度を復元するためのガイド付き畳み込み層を提案する。
実世界の屋内および合成屋外データセット上で,本手法を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2020-03-23T08:56:32Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。