論文の概要: HybridOcc: NeRF Enhanced Transformer-based Multi-Camera 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2408.09104v1
- Date: Sat, 17 Aug 2024 05:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 22:37:12.404413
- Title: HybridOcc: NeRF Enhanced Transformer-based Multi-Camera 3D Occupancy Prediction
- Title(参考訳): HybridOcc: NeRF強化トランスを用いたマルチカメラ3D動作予測
- Authors: Xiao Zhao, Bo Chen, Mingyang Sun, Dingkang Yang, Youxing Wang, Xukun Zhang, Mingcheng Li, Dongliang Kou, Xiaoyi Wei, Lihua Zhang,
- Abstract要約: 視覚に基づく3Dセマンティックシーン補完は、3Dボリューム表現を通して自律走行シーンを記述する。
HybridOccはTransformerフレームワークとNeRF表現によって生成されるハイブリッド3Dボリュームクエリ提案手法である。
本研究では,シーン表面に焦点をあてるのではなく,SSCタスクのオリエント化を図るために,革新的な占有光サンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 14.000919964212857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based 3D semantic scene completion (SSC) describes autonomous driving scenes through 3D volume representations. However, the occlusion of invisible voxels by scene surfaces poses challenges to current SSC methods in hallucinating refined 3D geometry. This paper proposes HybridOcc, a hybrid 3D volume query proposal method generated by Transformer framework and NeRF representation and refined in a coarse-to-fine SSC prediction framework. HybridOcc aggregates contextual features through the Transformer paradigm based on hybrid query proposals while combining it with NeRF representation to obtain depth supervision. The Transformer branch contains multiple scales and uses spatial cross-attention for 2D to 3D transformation. The newly designed NeRF branch implicitly infers scene occupancy through volume rendering, including visible and invisible voxels, and explicitly captures scene depth rather than generating RGB color. Furthermore, we present an innovative occupancy-aware ray sampling method to orient the SSC task instead of focusing on the scene surface, further improving the overall performance. Extensive experiments on nuScenes and SemanticKITTI datasets demonstrate the effectiveness of our HybridOcc on the SSC task.
- Abstract(参考訳): 視覚に基づく3Dセマンティックシーン補完(SSC)は、3Dボリューム表現による自律走行シーンを記述する。
しかし、シーン表面による見えないボクセルの排除は、洗練された3次元幾何学の幻覚化において、現在のSSC法に課題をもたらす。
本稿では,TransformerフレームワークとNeRF表現によって生成されたハイブリッド3Dボリュームクエリ提案手法であるHybridOccを提案する。
HybridOccは、ハイブリッドクエリの提案に基づいてTransformerパラダイムを通じてコンテキストの特徴を集約し、NeRF表現と組み合わせて深度監視を得る。
Transformerブランチは複数のスケールを含み、2Dから3Dへの変換に空間的相互アテンションを使用する。
新しく設計されたNeRFブランチは、視認性や見えないボクセルを含むボリュームレンダリングを通じてシーン占有率を暗黙的に推測し、RGB色を生成するのではなく、シーン深度を明示的にキャプチャする。
さらに,シーン表面に焦点をあてるのではなく,SSCタスクをオリエントに配置し,全体的な性能を向上する。
nuScenesとSemanticKITTIデータセットに関する大規模な実験は、SSCタスクにおけるHybridOccの有効性を実証している。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - HorGait: A Hybrid Model for Accurate Gait Recognition in LiDAR Point Cloud Planar Projections [8.56443762544299]
HorGaitは、LiDARからの3Dポイント雲の平面投影における歩行認識のためのTransformerアーキテクチャを備えたハイブリッドモデルである。
SUSTech1Kデータセット上のTransformerアーキテクチャメソッド間の最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-11T02:12:41Z) - Optimizing 3D Gaussian Splatting for Sparse Viewpoint Scene Reconstruction [11.840097269724792]
3D Gaussian Splatting (3DGS)は3Dシーン表現の有望なアプローチとして登場し、Neural Radiance Fields (NeRF)と比較して計算オーバーヘッドの低減を実現している。
SVS-GSは,3次元ガウス平滑化フィルタを統合して人工物を抑制する,スパースビューポイントシーン再構築のための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-05T03:18:04Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - HO-Gaussian: Hybrid Optimization of 3D Gaussian Splatting for Urban Scenes [24.227745405760697]
本稿では,グリッドベースボリュームと3DGSパイプラインを組み合わせたHO-Gaussianというハイブリッド最適化手法を提案する。
広範に使用されている自律走行データセットの結果から,HO-Gaussianはマルチカメラ都市データセット上でリアルタイムに写真リアリスティックレンダリングを実現することが示された。
論文 参考訳(メタデータ) (2024-03-29T07:58:21Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy
Prediction [16.66987810790077]
OccFormerは、意味的占有予測のために3Dボリュームを処理するデュアルパストランスフォーマーネットワークである。
カメラが生成する3Dボクセル機能の長距離、ダイナミック、効率的なエンコーディングを実現している。
論文 参考訳(メタデータ) (2023-04-11T16:15:50Z) - Neural Volume Super-Resolution [49.879789224455436]
本稿では,シーンの体積表現を直接操作する超解像ネットワークを提案する。
提案手法を実現するために,複数の2次元特徴面にヒンジを付ける新しい3次元表現法を提案する。
多様な3Dシーンの多視点一貫したビューを超解し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-12-09T04:54:13Z) - TransformerFusion: Monocular RGB Scene Reconstruction using Transformers [26.87200488085741]
TransformerFusionはトランスフォーマーベースの3Dシーン再構築手法である。
ネットワークは、シーン内の3D位置ごとに最も関連性の高い画像フレームに参加することを学習する。
機能は粗い方法で融合され、必要なときにのみ細かい機能を保持する。
論文 参考訳(メタデータ) (2021-07-05T18:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。