論文の概要: NeRF-DetS: Enhancing Multi-View 3D Object Detection with Sampling-adaptive Network of Continuous NeRF-based Representation
- arxiv url: http://arxiv.org/abs/2404.13921v1
- Date: Mon, 22 Apr 2024 06:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-23 15:05:12.928122
- Title: NeRF-DetS: Enhancing Multi-View 3D Object Detection with Sampling-adaptive Network of Continuous NeRF-based Representation
- Title(参考訳): NeRF-DetS: 連続したNeRF表現のサンプリング適応ネットワークによる多視点3次元物体検出の実現
- Authors: Chi Huang, Xinyang Li, Shengchuan Zhang, Liujuan Cao, Rongrong Ji,
- Abstract要約: NeRF-Detは、新しいビュー演算と3D知覚のタスクを統一する。
我々は,新しい3次元知覚ネットワーク構造であるNeRF-DetSを導入する。
NeRF-DetSはScanNetV2データセット上で競合するNeRF-Detより優れている。
- 参考スコア(独自算出の注目度): 60.47114985993196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a preliminary work, NeRF-Det unifies the tasks of novel view synthesis and 3D perception, demonstrating that perceptual tasks can benefit from novel view synthesis methods like NeRF, significantly improving the performance of indoor multi-view 3D object detection. Using the geometry MLP of NeRF to direct the attention of detection head to crucial parts and incorporating self-supervised loss from novel view rendering contribute to the achieved improvement. To better leverage the notable advantages of the continuous representation through neural rendering in space, we introduce a novel 3D perception network structure, NeRF-DetS. The key component of NeRF-DetS is the Multi-level Sampling-Adaptive Network, making the sampling process adaptively from coarse to fine. Also, we propose a superior multi-view information fusion method, known as Multi-head Weighted Fusion. This fusion approach efficiently addresses the challenge of losing multi-view information when using arithmetic mean, while keeping low computational costs. NeRF-DetS outperforms competitive NeRF-Det on the ScanNetV2 dataset, by achieving +5.02% and +5.92% improvement in mAP@.25 and mAP@.50, respectively.
- Abstract(参考訳): 予備的な作業として、NeRF-Detは、新しいビュー合成と3D知覚のタスクを統一し、知覚的タスクがNeRFのような新しいビュー合成手法の恩恵を受けることを示し、屋内のマルチビュー3Dオブジェクト検出の性能を大幅に向上させる。
NeRFの幾何学的MDPを用いて、検出ヘッドの注意を重要な部分に向け、新しいビューレンダリングからの自己監督的損失を取り入れることで、達成された改善に寄与する。
空間におけるニューラルレンダリングによる連続表現の顕著な利点を活用するために,新しい3次元知覚ネットワーク構造であるNeRF-DetSを導入する。
NeRF-DetSの鍵となるコンポーネントはマルチレベルサンプリング適応ネットワークであり、サンプリングプロセスを粗いものから細かいものへと適応させる。
また,マルチヘッド重み融合(Multi-head Weighted Fusion)と呼ばれる,優れた多視点情報融合手法を提案する。
この融合手法は計算コストを低く保ちながら算術平均を用いた場合の多視点情報を失うという課題を効果的に解決する。
NeRF-DetSは、それぞれmAP@.25とmAP@.50で+5.02%、+5.92%改善することで、ScanNetV2データセット上の競合するNeRF-Detを上回っている。
関連論文リスト
- Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。
EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。
ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文 参考訳(メタデータ) (2024-11-05T02:33:25Z) - Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks [4.499833362998488]
入射神経表現(INR)は、複雑な信号の連続的および分解非依存的な表現を提供するためにニューラルネットワークを使用する。
提案したFKANは、第1層のフーリエ級数としてモデル化された学習可能なアクティベーション関数を用いて、タスク固有の周波数成分を効果的に制御し、学習する。
実験結果から,提案したFKANモデルは,最先端の3つのベースラインスキームよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-14T05:53:33Z) - FSMDet: Vision-guided feature diffusion for fully sparse 3D detector [0.8437187555622164]
FSMDet (Fully Sparse Multi-modal Detection) を提案する。
提案手法は,従来のSOTA法に比べて最大5倍効率がよい。
論文 参考訳(メタデータ) (2024-09-11T01:55:45Z) - NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - NeRF-VPT: Learning Novel View Representations with Neural Radiance
Fields via View Prompt Tuning [63.39461847093663]
本研究では,これらの課題に対処するための新しいビュー合成手法であるNeRF-VPTを提案する。
提案するNeRF-VPTは、先行レンダリング結果から得られたRGB情報を、その後のレンダリングステージのインストラクティブな視覚的プロンプトとして機能するカスケーディングビュープロンプトチューニングパラダイムを用いている。
NeRF-VPTは、追加のガイダンスや複雑なテクニックに頼ることなく、トレーニングステージ毎に前のステージレンダリングからRGBデータをサンプリングするだけである。
論文 参考訳(メタデータ) (2024-03-02T22:08:10Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - VQ-NeRF: Vector Quantization Enhances Implicit Neural Representations [25.88881764546414]
VQ-NeRFは、ベクトル量子化による暗黙の神経表現を強化するための効率的なパイプラインである。
圧縮および原スケールの両スケールでNeRFモデルを同時に最適化する,革新的なマルチスケールNeRFサンプリング方式を提案する。
我々は3次元再構成の幾何学的忠実度とセマンティックコヒーレンスを改善するためにセマンティックロス関数を組み込んだ。
論文 参考訳(メタデータ) (2023-10-23T01:41:38Z) - NeRF-Det: Learning Geometry-Aware Volumetric Representation for
Multi-View 3D Object Detection [65.02633277884911]
提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。
提案手法は3次元形状を明示的に推定するため, エンドツーエンドでNeRFを用いて3次元検出性能を向上する。
論文 参考訳(メタデータ) (2023-07-27T04:36:16Z) - FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation
Models [21.523836478458524]
一般化可能なNeRFに関する最近の研究は、単一または少数の画像からの新規なビュー合成に関する有望な結果を示している。
本研究では,事前学習された視覚モデルを蒸留することにより,一般化可能なNeRFを学習するためのFeatureNeRFという新しいフレームワークを提案する。
一般化可能な3次元特徴抽出器としてのFeatureNeRFの有効性を実証した。
論文 参考訳(メタデータ) (2023-03-22T17:57:01Z) - NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from
3D-aware Diffusion [107.67277084886929]
単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。
そこで我々は,NerfDiffを提案する。NerfDiffは3D対応条件拡散モデル(CDM)の知識を,テスト時に仮想ビューの集合を合成・精製することで,NeRFに抽出することでこの問題に対処する。
さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T17:12:00Z) - AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware
Training [100.33713282611448]
我々は、高分解能データによるNeRFのトレーニングに関する最初のパイロット研究を行う。
本稿では,多層パーセプトロンと畳み込み層との結合を含む,対応する解を提案する。
私たちのアプローチは、明らかなトレーニング/テストコストを導入することなく、ほぼ無償です。
論文 参考訳(メタデータ) (2022-11-17T17:22:28Z) - NeRF in detail: Learning to sample for view synthesis [104.75126790300735]
ニューラルレイディアンス場(NeRF)法は目覚ましい新しいビュー合成を実証している。
この作業では、バニラ粗大なアプローチの明確な制限に対処します -- パフォーマンスに基づいており、手元にあるタスクのエンドツーエンドをトレーニングしていません。
我々は、サンプルの提案と、そのネットワークにおける重要性を学習し、そのニューラルネットワークアーキテクチャに対する複数の代替案を検討し比較する、微分可能なモジュールを導入する。
論文 参考訳(メタデータ) (2021-06-09T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。