論文の概要: NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection
- arxiv url: http://arxiv.org/abs/2404.13921v2
- Date: Mon, 30 Dec 2024 13:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:00:52.973533
- Title: NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection
- Title(参考訳): NeRF-DetS: NeRF-based Indoor Multi-view 3D Object Detectionのための適応型空間的サンプリングとビューワイズ融合戦略
- Authors: Chi Huang, Xinyang Li, Yansong Qu, Changli Wu, Xiaofan Li, Shengchuan Zhang, Liujuan Cao,
- Abstract要約: 屋内シーンでは、物体の位置とスケールの多様さが視覚的な3D知覚タスクを大きな課題にしている。
従来の研究では、暗黙の表現は視覚的な3D知覚タスクに役立てる能力を持っていることが示されている。
これらの問題に対処するために, 単純で効果的なNeRF-DetSを提案する。
- 参考スコア(独自算出の注目度): 17.631688089207724
- License:
- Abstract: In indoor scenes, the diverse distribution of object locations and scales makes the visual 3D perception task a big challenge. Previous works (e.g, NeRF-Det) have demonstrated that implicit representation has the capacity to benefit the visual 3D perception task in indoor scenes with high amount of overlap between input images. However, previous works cannot fully utilize the advancement of implicit representation because of fixed sampling and simple multi-view feature fusion. In this paper, inspired by sparse fashion method (e.g, DETR3D), we propose a simple yet effective method, NeRF-DetS, to address above issues. NeRF-DetS includes two modules: Progressive Adaptive Sampling Strategy (PASS) and Depth-Guided Simplified Multi-Head Attention Fusion (DS-MHA). Specifically, (1)PASS can automatically sample features of each layer within a dense 3D detector, using offsets predicted by the previous layer. (2)DS-MHA can not only efficiently fuse multi-view features with strong occlusion awareness but also reduce computational cost. Extensive experiments on ScanNetV2 dataset demonstrate our NeRF-DetS outperforms NeRF-Det, by achieving +5.02% and +5.92% improvement in mAP under IoU25 and IoU50, respectively. Also, NeRF-DetS shows consistent improvements on ARKITScenes.
- Abstract(参考訳): 屋内シーンでは、物体の位置とスケールの多様さが視覚的な3D知覚タスクを大きな課題にしている。
以前の作品(例えば、NeRF-Det)では、暗黙の表現は、入力画像間の重なり合いが大きい屋内シーンにおいて視覚的な3D知覚タスクの恩恵を受ける能力を持っていることが示されている。
しかし、従来の研究では、固定サンプリングと単純なマルチビュー特徴融合のため、暗黙の表現の進歩を十分に活用することはできない。
本稿では, スパースファッション法(例えばDETR3D)に着想を得て, 上記の問題に対処するための単純で効果的な方法であるNeRF-DetSを提案する。
NeRF-DetSには、Progressive Adaptive Smpling Strategy (PASS)とDepth-Guided Simplified Multi-Head Attention Fusion (DS-MHA)の2つのモジュールが含まれている。
具体的には、(1)PASSは、前層が予測したオフセットを用いて、密度の高い3次元検出器内の各層の特徴を自動的にサンプリングすることができる。
2)DS-MHAは,強い閉塞認識を持つマルチビュー特徴を効率的に融合するだけでなく,計算コストを低減できる。
ScanNetV2データセットの大規模な実験では、NeRF-DetSは、IoU25とIoU50でそれぞれ5.02%と5.92%の改善を達成して、NeRF-Detよりも優れていた。
また、NeRF-DetSはARKITScenesの一貫性のある改善を示している。
関連論文リスト
- Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - FSMDet: Vision-guided feature diffusion for fully sparse 3D detector [0.8437187555622164]
FSMDet (Fully Sparse Multi-modal Detection) を提案する。
提案手法は,従来のSOTA法に比べて最大5倍効率がよい。
論文 参考訳(メタデータ) (2024-09-11T01:55:45Z) - NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - NeRF-Det: Learning Geometry-Aware Volumetric Representation for
Multi-View 3D Object Detection [65.02633277884911]
提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。
提案手法は3次元形状を明示的に推定するため, エンドツーエンドでNeRFを用いて3次元検出性能を向上する。
論文 参考訳(メタデータ) (2023-07-27T04:36:16Z) - FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation
Models [21.523836478458524]
一般化可能なNeRFに関する最近の研究は、単一または少数の画像からの新規なビュー合成に関する有望な結果を示している。
本研究では,事前学習された視覚モデルを蒸留することにより,一般化可能なNeRFを学習するためのFeatureNeRFという新しいフレームワークを提案する。
一般化可能な3次元特徴抽出器としてのFeatureNeRFの有効性を実証した。
論文 参考訳(メタデータ) (2023-03-22T17:57:01Z) - AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware
Training [100.33713282611448]
我々は、高分解能データによるNeRFのトレーニングに関する最初のパイロット研究を行う。
本稿では,多層パーセプトロンと畳み込み層との結合を含む,対応する解を提案する。
私たちのアプローチは、明らかなトレーニング/テストコストを導入することなく、ほぼ無償です。
論文 参考訳(メタデータ) (2022-11-17T17:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。