Fugu-MT 論文翻訳(概要): A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion

論文の概要: A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion

arxiv url: http://arxiv.org/abs/2406.09792v1
Date: Fri, 14 Jun 2024 07:42:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 14:44:14.226614
Title: A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion
Title（参考訳）: 屋内深度補完のための2段階マスク付きオートエンコーダネットワーク
Authors: Kailai Sun, Zhou Yang, Qianchuan Zhao,
Abstract要約: 室内深度補完のための2段階トランスフォーマーネットワークを提案する。提案するネットワークは,Matterport3Dデータセット上での最先端性能を実現する。また, 深度完了作業の重要性を検証するため, 室内3次元再構成に本手法を適用した。
参考スコア（独自算出の注目度）: 10.519644854849098
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Depth images have a wide range of applications, such as 3D reconstruction, autonomous driving, augmented reality, robot navigation, and scene understanding. Commodity-grade depth cameras are hard to sense depth for bright, glossy, transparent, and distant surfaces. Although existing depth completion methods have achieved remarkable progress, their performance is limited when applied to complex indoor scenarios. To address these problems, we propose a two-step Transformer-based network for indoor depth completion. Unlike existing depth completion approaches, we adopt a self-supervision pre-training encoder based on the masked autoencoder to learn an effective latent representation for the missing depth value; then we propose a decoder based on a token fusion mechanism to complete (i.e., reconstruct) the full depth from the jointly RGB and incomplete depth image. Compared to the existing methods, our proposed network, achieves the state-of-the-art performance on the Matterport3D dataset. In addition, to validate the importance of the depth completion task, we apply our methods to indoor 3D reconstruction. The code, dataset, and demo are available at https://github.com/kailaisun/Indoor-Depth-Completion.
Abstract（参考訳）: 深度画像には3D再構成、自動運転、拡張現実、ロボットナビゲーション、シーン理解など、幅広い応用がある。コモディティグレードの奥行きカメラは、明るく、光沢があり、透明で、遠くの面の奥行きを感知するのは難しい。既存の深度補完法は目覚ましい進歩を遂げているが, 複雑な屋内シナリオに適用した場合の性能は限られている。これらの問題に対処するため,屋内深度補完のための2段階トランスフォーマーネットワークを提案する。既存の深度補完手法とは異なり、マスク付きオートエンコーダをベースとした自己超過事前学習エンコーダを用いて、欠落した深度値の有効な潜伏表現を学習し、トークン融合機構に基づく復号器を提案し、共同RGBと不完全深度画像から全深度を完了(再構成)する。既存の手法と比較して,提案するネットワークは,Matterport3Dデータセットの最先端性能を実現する。また, 深度完了作業の重要性を検証するため, 室内3次元再構成に本手法を適用した。コード、データセット、デモはhttps://github.com/kailaisun/Indoor-Depth-Completion.comで公開されている。

関連論文リスト

Masked Depth Modeling for Spatial Perception [44.0326843862591]
LingBot-Depthは、ディープマップをマスクしたディープ・モデリングにより洗練するディープ・コンプリート・モデルである。最上位のRGB-Dカメラよりも、奥行きの精度とピクセルのカバレッジが優れている。我々は,空間認識のコミュニティに対して,コード,チェックポイント,および3M RGB-depthペアをリリースする。
論文参考訳（メタデータ） (2026-01-25T16:13:49Z)
FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers [91.59069344768858]
周波数対応位置深度埋め込み (FreqPDE) を導入し, 空間情報と2次元画像特徴を付加して3次元検出変換器デコーダを提案する。 FreqPDEは2D画像特徴と3D位置埋め込みを組み合わせることで、クエリデコーディングのための3D深度認識機能を生成する。
論文参考訳（メタデータ） (2025-10-17T07:36:54Z)
GAC-Net_Geometric and attention-based Network for Depth Completion [10.64600095082433]
本稿では,チャネルアテンション機構と3次元グローバル特徴知覚(CGA-Net)を組み合わせたディープコンプリートネットワークを提案する。 KITTI深度補完データセットの実験により、CGA-Netは深度マップの予測精度を大幅に向上できることが示された。
論文参考訳（メタデータ） (2025-01-14T10:24:20Z)
DepthLab: From Partial to Complete [80.58276388743306]
不足する値は、幅広いアプリケーションにわたる深度データにとって共通の課題である。この作業は、イメージ拡散プリエントを利用した基礎深度塗装モデルであるDepthLabと、このギャップを埋めるものだ。提案手法は,3Dシーンのインペイント,テキストから3Dシーン生成,DUST3Rによるスパースビュー再構成,LiDAR深度補完など,様々なダウンストリームタスクにおいて有用であることを示す。
論文参考訳（メタデータ） (2024-12-24T04:16:38Z)
Depth Awakens: A Depth-perceptual Attention Fusion Network for RGB-D Camouflaged Object Detection [1.0535324143528204]
既存のCODモデルは、視覚システムが本物の3D環境内で動作するという事実を見落としている。本稿では,深度マップを補助入力として利用する新しい深度知覚注意融合ネットワークを提案する。ネットワークはトリデントブランチエンコーダを使用して、色情報と深度情報とその通信を抽出する。
論文参考訳（メタデータ） (2024-05-09T08:17:43Z)
RigNet++: Semantic Assisted Repetitive Image Guided Network for Depth Completion [31.70022495622075]
画像案内ネットワークにおける繰り返し設計を探索し、徐々に十分に深度を復元する。前者では,複雑な環境の識別画像の特徴を抽出するために,高密度繰り返し時間ガラスネットワーク(DRHN)を設計する。後者では,動的畳み込みに基づく反復誘導(RG)モジュールを提案する。さらに,領域認識型空間伝搬ネットワーク(RASPN)を提案する。
論文参考訳（メタデータ） (2023-09-01T09:11:20Z)
DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes [68.38952377590499]
複雑な屋内環境の中を移動する単眼カメラから奥行きを推定するための新しい手法を提案する。提案手法は,静的な背景と複数の移動する人物からなるシーン全体にわたる絶対規模の深度マップを推定する。
論文参考訳（メタデータ） (2021-08-12T09:12:39Z)
A Real-Time Online Learning Framework for Joint 3D Reconstruction and Semantic Segmentation of Indoor Scenes [87.74952229507096]
本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
論文参考訳（メタデータ） (2021-08-11T14:29:01Z)
VR3Dense: Voxel Representation Learning for 3D Object Detection and Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文参考訳（メタデータ） (2021-04-13T04:25:54Z)
Sparse Auxiliary Networks for Unified Monocular Depth Prediction and Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。 sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文参考訳（メタデータ） (2021-03-30T21:22:26Z)
Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文参考訳（メタデータ） (2020-12-22T22:58:29Z)
SelfDeco: Self-Supervised Monocular Depth Completion in Challenging Indoor Environments [50.761917113239996]
自己教師付き単分子深度補完のための新しいアルゴリズムを提案する。提案手法は,深度ラベルを含まない疎深度測定とそれに対応する単眼ビデオシーケンスのみを必要とするニューラルネットワークのトレーニングに基づく。我々の自己監督アルゴリズムは、テクスチャのない領域、光沢のない透明な表面、非ランバートの表面、動く人々、より長く多様な深度範囲、複雑なエゴモーションによって捉えられたシーンを含む屋内環境に挑戦するために設計されている。
論文参考訳（メタデータ） (2020-11-10T08:55:07Z)
3dDepthNet: Point Cloud Guided Depth Completion Network for Sparse Depth and Single Color Image [42.13930269841654]
我々のネットワークは、正確かつ軽量な3次元から2次元の粗大な二重密度化設計を提供する。 KITTIデータセットの実験は、我々のネットワークがより効率的でありながら最先端の精度を実現していることを示している。
論文参考訳（メタデータ） (2020-03-20T10:19:32Z)
Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文参考訳（メタデータ） (2020-01-21T21:56:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。