論文の概要: SparseFormer: Attention-based Depth Completion Network
- arxiv url: http://arxiv.org/abs/2206.04557v1
- Date: Thu, 9 Jun 2022 15:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 19:16:54.451954
- Title: SparseFormer: Attention-based Depth Completion Network
- Title(参考訳): SparseFormer: 注意に基づく奥行き補完ネットワーク
- Authors: Frederik Warburg and Michael Ramamonjisoa and Manuel L\'opez-Antequera
- Abstract要約: SparseFormerというトランスフォーマーブロックを導入し、3Dランドマークと深い視覚的特徴を融合して深い深度を作り出す。
SparseFormerはグローバルな受容場を持ち、低密度で一様でないランドマークを持つディープコンプリートに特に有効である。
3Dランドマーク間の奥行き外乱の問題に対処するため,スパースランドマーク間の注意を通して外乱をフィルタリングするトレーニング可能なリファインメントモジュールを導入する。
- 参考スコア(独自算出の注目度): 2.9434930072968584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most pipelines for Augmented and Virtual Reality estimate the ego-motion of
the camera by creating a map of sparse 3D landmarks. In this paper, we tackle
the problem of depth completion, that is, densifying this sparse 3D map using
RGB images as guidance. This remains a challenging problem due to the low
density, non-uniform and outlier-prone 3D landmarks produced by SfM and SLAM
pipelines. We introduce a transformer block, SparseFormer, that fuses 3D
landmarks with deep visual features to produce dense depth. The SparseFormer
has a global receptive field, making the module especially effective for depth
completion with low-density and non-uniform landmarks. To address the issue of
depth outliers among the 3D landmarks, we introduce a trainable refinement
module that filters outliers through attention between the sparse landmarks.
- Abstract(参考訳): Augmented and Virtual Realityのほとんどのパイプラインは、スパース3Dランドマークのマップを作成することで、カメラのエゴモーションを推定する。
本稿では,RGBイメージをガイダンスとして,このスパース3Dマップの立体化という,深度補正の課題に対処する。
これは、SfMとSLAMパイプラインが生成する低密度、非一様、かつアウトリーチの3Dランドマークのため、依然として難しい問題である。
3dのランドマークと深い視覚特徴を融合させ、濃密な奥行きを作り出すトランスフォーマーブロックsparseformerを導入する。
SparseFormerはグローバルな受容場を持ち、低密度で一様でないランドマークを持つディープコンプリートに特に有効である。
3次元ランドマーク間の奥行き外れの問題に対処するため,我々は,スパースランドマーク間の注意を通して外れ値をフィルタする訓練可能なリファインメントモジュールを提案する。
関連論文リスト
- Refinement of Monocular Depth Maps via Multi-View Differentiable Rendering [4.717325308876748]
本稿では,複数の画像から一貫した詳細な深度マップを生成するための新しい手法を提案する。
我々は、位相的に完全だが計量的に不正確な深度マップを生成する単眼深度推定の進歩を活用する。
提案手法は,高密度で詳細で高品質な深度マップを作成でき,また屋内シナリオの挑戦も可能であり,最先端の深度復元手法よりも優れている。
論文 参考訳(メタデータ) (2024-10-04T18:50:28Z) - A Two-Stage Masked Autoencoder Based Network for Indoor Depth Completion [10.519644854849098]
室内深度補完のための2段階トランスフォーマーネットワークを提案する。
提案するネットワークは,Matterport3Dデータセット上での最先端性能を実現する。
また, 深度完了作業の重要性を検証するため, 室内3次元再構成に本手法を適用した。
論文 参考訳(メタデータ) (2024-06-14T07:42:27Z) - MonoCD: Monocular 3D Object Detection with Complementary Depths [9.186673054867866]
深度推定は単分子3次元物体検出に不可欠だが挑戦的なサブタスクである。
2つの新しい設計で深度の相補性を高めることを提案する。
KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-04-04T03:30:49Z) - SparseNeRF: Distilling Depth Ranking for Few-shot Novel View Synthesis [93.46963803030935]
実世界の不正確な観測から奥行きの先行情報を利用する新しいスパースビューNeRF(Sparse-view NeRF)フレームワークを提案する。
局所パッチの粗い深度マップとNeRFの予測深度ランキングが一致するように, 局所深度ランキング法である簡易で効果的な制約を提案する。
また、Azure Kinect、ZED 2、iPhone 13 Proの実際の深度マップを含む新しいデータセットNVS-RGBDも収集しています。
論文 参考訳(メタデータ) (2023-03-28T17:58:05Z) - Sparse SPN: Depth Completion from Sparse Keypoints [17.26885039864854]
長期的なゴールは、画像ベースの深度補完を使用して、スパースポイントクラウドから3Dモデルを作成することである。
我々は、CSPNをマルチスケールの予測と拡張カーネルで拡張し、キーポイントサンプリング深度をより良くする。
また、NYUv2でトレーニングされたモデルが、スパースSfM点を完結させることで、驚くほど良い点雲をETH3D上で生成することを示した。
論文 参考訳(メタデータ) (2022-12-02T05:45:04Z) - Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection [85.08249413137558]
LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。
小さい、遠く、不完全な点の少ない物体は、しばしば検出するのが困難である。
Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2022-11-23T16:01:06Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [61.89277940084792]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes [68.38952377590499]
複雑な屋内環境の中を移動する単眼カメラから奥行きを推定するための新しい手法を提案する。
提案手法は,静的な背景と複数の移動する人物からなるシーン全体にわたる絶対規模の深度マップを推定する。
論文 参考訳(メタデータ) (2021-08-12T09:12:39Z) - Learning Joint 2D-3D Representations for Depth Completion [90.62843376586216]
2Dおよび3Dの関節の特徴を抽出することを学ぶシンプルで効果的なニューラルネットワークブロックを設計します。
具体的には、画像画素に2D畳み込みと3D点に連続畳み込みを施した2つのドメイン固有のサブネットワークから構成される。
論文 参考訳(メタデータ) (2020-12-22T22:58:29Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。