論文の概要: NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection
- arxiv url: http://arxiv.org/abs/2404.13921v2
- Date: Mon, 30 Dec 2024 13:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:00:52.973533
- Title: NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection
- Title(参考訳): NeRF-DetS: NeRF-based Indoor Multi-view 3D Object Detectionのための適応型空間的サンプリングとビューワイズ融合戦略
- Authors: Chi Huang, Xinyang Li, Yansong Qu, Changli Wu, Xiaofan Li, Shengchuan Zhang, Liujuan Cao,
- Abstract要約: 屋内シーンでは、物体の位置とスケールの多様さが視覚的な3D知覚タスクを大きな課題にしている。
従来の研究では、暗黙の表現は視覚的な3D知覚タスクに役立てる能力を持っていることが示されている。
これらの問題に対処するために, 単純で効果的なNeRF-DetSを提案する。
- 参考スコア(独自算出の注目度): 17.631688089207724
- License:
- Abstract: In indoor scenes, the diverse distribution of object locations and scales makes the visual 3D perception task a big challenge. Previous works (e.g, NeRF-Det) have demonstrated that implicit representation has the capacity to benefit the visual 3D perception task in indoor scenes with high amount of overlap between input images. However, previous works cannot fully utilize the advancement of implicit representation because of fixed sampling and simple multi-view feature fusion. In this paper, inspired by sparse fashion method (e.g, DETR3D), we propose a simple yet effective method, NeRF-DetS, to address above issues. NeRF-DetS includes two modules: Progressive Adaptive Sampling Strategy (PASS) and Depth-Guided Simplified Multi-Head Attention Fusion (DS-MHA). Specifically, (1)PASS can automatically sample features of each layer within a dense 3D detector, using offsets predicted by the previous layer. (2)DS-MHA can not only efficiently fuse multi-view features with strong occlusion awareness but also reduce computational cost. Extensive experiments on ScanNetV2 dataset demonstrate our NeRF-DetS outperforms NeRF-Det, by achieving +5.02% and +5.92% improvement in mAP under IoU25 and IoU50, respectively. Also, NeRF-DetS shows consistent improvements on ARKITScenes.
- Abstract(参考訳): 屋内シーンでは、物体の位置とスケールの多様さが視覚的な3D知覚タスクを大きな課題にしている。
以前の作品(例えば、NeRF-Det)では、暗黙の表現は、入力画像間の重なり合いが大きい屋内シーンにおいて視覚的な3D知覚タスクの恩恵を受ける能力を持っていることが示されている。
しかし、従来の研究では、固定サンプリングと単純なマルチビュー特徴融合のため、暗黙の表現の進歩を十分に活用することはできない。
本稿では, スパースファッション法(例えばDETR3D)に着想を得て, 上記の問題に対処するための単純で効果的な方法であるNeRF-DetSを提案する。
NeRF-DetSには、Progressive Adaptive Smpling Strategy (PASS)とDepth-Guided Simplified Multi-Head Attention Fusion (DS-MHA)の2つのモジュールが含まれている。
具体的には、(1)PASSは、前層が予測したオフセットを用いて、密度の高い3次元検出器内の各層の特徴を自動的にサンプリングすることができる。
2)DS-MHAは,強い閉塞認識を持つマルチビュー特徴を効率的に融合するだけでなく,計算コストを低減できる。
ScanNetV2データセットの大規模な実験では、NeRF-DetSは、IoU25とIoU50でそれぞれ5.02%と5.92%の改善を達成して、NeRF-Detよりも優れていた。
また、NeRF-DetSはARKITScenesの一貫性のある改善を示している。
関連論文リスト
- Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks [4.499833362998488]
入射神経表現(INR)は、複雑な信号の連続的および分解非依存的な表現を提供するためにニューラルネットワークを使用する。
提案したFKANは、第1層のフーリエ級数としてモデル化された学習可能なアクティベーション関数を用いて、タスク固有の周波数成分を効果的に制御し、学習する。
実験結果から,提案したFKANモデルは,最先端の3つのベースラインスキームよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-14T05:53:33Z) - NeRF-VPT: Learning Novel View Representations with Neural Radiance
Fields via View Prompt Tuning [63.39461847093663]
本研究では,これらの課題に対処するための新しいビュー合成手法であるNeRF-VPTを提案する。
提案するNeRF-VPTは、先行レンダリング結果から得られたRGB情報を、その後のレンダリングステージのインストラクティブな視覚的プロンプトとして機能するカスケーディングビュープロンプトチューニングパラダイムを用いている。
NeRF-VPTは、追加のガイダンスや複雑なテクニックに頼ることなく、トレーニングステージ毎に前のステージレンダリングからRGBデータをサンプリングするだけである。
論文 参考訳(メタデータ) (2024-03-02T22:08:10Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - VQ-NeRF: Vector Quantization Enhances Implicit Neural Representations [25.88881764546414]
VQ-NeRFは、ベクトル量子化による暗黙の神経表現を強化するための効率的なパイプラインである。
圧縮および原スケールの両スケールでNeRFモデルを同時に最適化する,革新的なマルチスケールNeRFサンプリング方式を提案する。
我々は3次元再構成の幾何学的忠実度とセマンティックコヒーレンスを改善するためにセマンティックロス関数を組み込んだ。
論文 参考訳(メタデータ) (2023-10-23T01:41:38Z) - NeRF-Det: Learning Geometry-Aware Volumetric Representation for
Multi-View 3D Object Detection [65.02633277884911]
提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。
提案手法は3次元形状を明示的に推定するため, エンドツーエンドでNeRFを用いて3次元検出性能を向上する。
論文 参考訳(メタデータ) (2023-07-27T04:36:16Z) - NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from
3D-aware Diffusion [107.67277084886929]
単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。
そこで我々は,NerfDiffを提案する。NerfDiffは3D対応条件拡散モデル(CDM)の知識を,テスト時に仮想ビューの集合を合成・精製することで,NeRFに抽出することでこの問題に対処する。
さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T17:12:00Z) - NeRF in detail: Learning to sample for view synthesis [104.75126790300735]
ニューラルレイディアンス場(NeRF)法は目覚ましい新しいビュー合成を実証している。
この作業では、バニラ粗大なアプローチの明確な制限に対処します -- パフォーマンスに基づいており、手元にあるタスクのエンドツーエンドをトレーニングしていません。
我々は、サンプルの提案と、そのネットワークにおける重要性を学習し、そのニューラルネットワークアーキテクチャに対する複数の代替案を検討し比較する、微分可能なモジュールを導入する。
論文 参考訳(メタデータ) (2021-06-09T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。