Fugu-MT 論文翻訳(概要): NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection

論文の概要: NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection

arxiv url: http://arxiv.org/abs/2404.13921v2
Date: Mon, 30 Dec 2024 13:26:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.230871
Title: NeRF-DetS: Enhanced Adaptive Spatial-wise Sampling and View-wise Fusion Strategies for NeRF-based Indoor Multi-view 3D Object Detection
Title（参考訳）: NeRF-DetS: NeRF-based Indoor Multi-view 3D Object Detectionのための適応型空間的サンプリングとビューワイズ融合戦略
Authors: Chi Huang, Xinyang Li, Yansong Qu, Changli Wu, Xiaofan Li, Shengchuan Zhang, Liujuan Cao,
Abstract要約: 屋内シーンでは、物体の位置とスケールの多様さが視覚的な3D知覚タスクを大きな課題にしている。従来の研究では、暗黙の表現は視覚的な3D知覚タスクに役立てる能力を持っていることが示されている。これらの問題に対処するために, 単純で効果的なNeRF-DetSを提案する。
参考スコア（独自算出の注目度）: 17.631688089207724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In indoor scenes, the diverse distribution of object locations and scales makes the visual 3D perception task a big challenge. Previous works (e.g, NeRF-Det) have demonstrated that implicit representation has the capacity to benefit the visual 3D perception task in indoor scenes with high amount of overlap between input images. However, previous works cannot fully utilize the advancement of implicit representation because of fixed sampling and simple multi-view feature fusion. In this paper, inspired by sparse fashion method (e.g, DETR3D), we propose a simple yet effective method, NeRF-DetS, to address above issues. NeRF-DetS includes two modules: Progressive Adaptive Sampling Strategy (PASS) and Depth-Guided Simplified Multi-Head Attention Fusion (DS-MHA). Specifically, (1)PASS can automatically sample features of each layer within a dense 3D detector, using offsets predicted by the previous layer. (2)DS-MHA can not only efficiently fuse multi-view features with strong occlusion awareness but also reduce computational cost. Extensive experiments on ScanNetV2 dataset demonstrate our NeRF-DetS outperforms NeRF-Det, by achieving +5.02% and +5.92% improvement in mAP under IoU25 and IoU50, respectively. Also, NeRF-DetS shows consistent improvements on ARKITScenes.
Abstract（参考訳）: 屋内シーンでは、物体の位置とスケールの多様さが視覚的な3D知覚タスクを大きな課題にしている。以前の作品(例えば、NeRF-Det)では、暗黙の表現は、入力画像間の重なり合いが大きい屋内シーンにおいて視覚的な3D知覚タスクの恩恵を受ける能力を持っていることが示されている。しかし、従来の研究では、固定サンプリングと単純なマルチビュー特徴融合のため、暗黙の表現の進歩を十分に活用することはできない。本稿では, スパースファッション法(例えばDETR3D)に着想を得て, 上記の問題に対処するための単純で効果的な方法であるNeRF-DetSを提案する。 NeRF-DetSには、Progressive Adaptive Smpling Strategy (PASS)とDepth-Guided Simplified Multi-Head Attention Fusion (DS-MHA)の2つのモジュールが含まれている。具体的には、(1)PASSは、前層が予測したオフセットを用いて、密度の高い3次元検出器内の各層の特徴を自動的にサンプリングすることができる。 2)DS-MHAは,強い閉塞認識を持つマルチビュー特徴を効率的に融合するだけでなく,計算コストを低減できる。 ScanNetV2データセットの大規模な実験では、NeRF-DetSは、IoU25とIoU50でそれぞれ5.02%と5.92%の改善を達成して、NeRF-Detよりも優れていた。また、NeRF-DetSはARKITScenesの一貫性のある改善を示している。

関連論文リスト

Efficient Feature Aggregation and Scale-Aware Regression for Monocular 3D Object Detection [40.14197775884804]
MonoASRHは、効率的なハイブリッド特徴集約モジュール(EH-FAM)と適応スケール対応3D回帰ヘッド(ASRH)で構成される新しいモノクル3D検出フレームワークである。 EH-FAMは、小規模オブジェクトのセマンティックな特徴を抽出するために、グローバルな受容領域を持つマルチヘッドアテンションを用いる。 ASRHは2次元境界ボックス次元を符号化し、EH-FAMで集約された意味的特徴とスケール特徴を融合する。
論文参考訳（メタデータ） (2024-11-05T02:33:25Z)
Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks [4.499833362998488]
入射神経表現(INR)は、複雑な信号の連続的および分解非依存的な表現を提供するためにニューラルネットワークを使用する。提案したFKANは、第1層のフーリエ級数としてモデル化された学習可能なアクティベーション関数を用いて、タスク固有の周波数成分を効果的に制御し、学習する。実験結果から,提案したFKANモデルは,最先端の3つのベースラインスキームよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-09-14T05:53:33Z)
FSMDet: Vision-guided feature diffusion for fully sparse 3D detector [0.8437187555622164]
FSMDet (Fully Sparse Multi-modal Detection) を提案する。提案手法は,従来のSOTA法に比べて最大5倍効率がよい。
論文参考訳（メタデータ） (2024-09-11T01:55:45Z)
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文参考訳（メタデータ） (2024-04-01T17:59:55Z)
NeRF-VPT: Learning Novel View Representations with Neural Radiance Fields via View Prompt Tuning [63.39461847093663]
本研究では,これらの課題に対処するための新しいビュー合成手法であるNeRF-VPTを提案する。提案するNeRF-VPTは、先行レンダリング結果から得られたRGB情報を、その後のレンダリングステージのインストラクティブな視覚的プロンプトとして機能するカスケーディングビュープロンプトチューニングパラダイムを用いている。 NeRF-VPTは、追加のガイダンスや複雑なテクニックに頼ることなく、トレーニングステージ毎に前のステージレンダリングからRGBデータをサンプリングするだけである。
論文参考訳（メタデータ） (2024-03-02T22:08:10Z)
NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-22T11:48:06Z)
Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。 3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文参考訳（メタデータ） (2023-12-06T00:46:30Z)
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-02T02:27:58Z)
VQ-NeRF: Vector Quantization Enhances Implicit Neural Representations [25.88881764546414]
VQ-NeRFは、ベクトル量子化による暗黙の神経表現を強化するための効率的なパイプラインである。圧縮および原スケールの両スケールでNeRFモデルを同時に最適化する,革新的なマルチスケールNeRFサンプリング方式を提案する。我々は3次元再構成の幾何学的忠実度とセマンティックコヒーレンスを改善するためにセマンティックロス関数を組み込んだ。
論文参考訳（メタデータ） (2023-10-23T01:41:38Z)
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection [65.02633277884911]
提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。提案手法は3次元形状を明示的に推定するため, エンドツーエンドでNeRFを用いて3次元検出性能を向上する。
論文参考訳（メタデータ） (2023-07-27T04:36:16Z)
FeatureNeRF: Learning Generalizable NeRFs by Distilling Foundation Models [21.523836478458524]
一般化可能なNeRFに関する最近の研究は、単一または少数の画像からの新規なビュー合成に関する有望な結果を示している。本研究では,事前学習された視覚モデルを蒸留することにより,一般化可能なNeRFを学習するためのFeatureNeRFという新しいフレームワークを提案する。一般化可能な3次元特徴抽出器としてのFeatureNeRFの有効性を実証した。
論文参考訳（メタデータ） (2023-03-22T17:57:01Z)
NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from 3D-aware Diffusion [107.67277084886929]
単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。そこで我々は,NerfDiffを提案する。NerfDiffは3D対応条件拡散モデル(CDM)の知識を,テスト時に仮想ビューの集合を合成・精製することで,NeRFに抽出することでこの問題に対処する。さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-20T17:12:00Z)
AligNeRF: High-Fidelity Neural Radiance Fields via Alignment-Aware Training [100.33713282611448]
我々は、高分解能データによるNeRFのトレーニングに関する最初のパイロット研究を行う。本稿では,多層パーセプトロンと畳み込み層との結合を含む,対応する解を提案する。私たちのアプローチは、明らかなトレーニング/テストコストを導入することなく、ほぼ無償です。
論文参考訳（メタデータ） (2022-11-17T17:22:28Z)
NeRF in detail: Learning to sample for view synthesis [104.75126790300735]
ニューラルレイディアンス場(NeRF)法は目覚ましい新しいビュー合成を実証している。この作業では、バニラ粗大なアプローチの明確な制限に対処します -- パフォーマンスに基づいており、手元にあるタスクのエンドツーエンドをトレーニングしていません。我々は、サンプルの提案と、そのネットワークにおける重要性を学習し、そのニューラルネットワークアーキテクチャに対する複数の代替案を検討し比較する、微分可能なモジュールを導入する。
論文参考訳（メタデータ） (2021-06-09T17:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。