論文の概要: CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
- arxiv url: http://arxiv.org/abs/2401.18075v1
- Date: Wed, 31 Jan 2024 18:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:29:07.370586
- Title: CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
- Title(参考訳): carff:3次元シーン予測のための条件付き自動エンコードラミアンスフィールド
- Authors: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas
Rhinehart, Rowan McAllister, Joseph Gonzalez
- Abstract要約: CARFF: 3次元シーン予測のための条件付き自動符号化レーダランスフィールドを提案する。
本手法は,確率エンコーダを用いて,画像の3次元潜在シーン構成上の分布にマッピングする。
CarFFは、複雑なマルチエージェント自律運転シナリオにおける効率的な軌道計画と緊急計画を可能にするために使用できる。
- 参考スコア(独自算出の注目度): 16.164569768091486
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene
Forecasting, a method for predicting future 3D scenes given past observations,
such as 2D ego-centric images. Our method maps an image to a distribution over
plausible 3D latent scene configurations using a probabilistic encoder, and
predicts the evolution of the hypothesized scenes through time. Our latent
scene representation conditions a global Neural Radiance Field (NeRF) to
represent a 3D scene model, which enables explainable predictions and
straightforward downstream applications. This approach extends beyond previous
neural rendering work by considering complex scenarios of uncertainty in
environmental states and dynamics. We employ a two-stage training of
Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we
auto-regressively predict latent scene representations as a partially
observable Markov decision process, utilizing a mixture density network. We
demonstrate the utility of our method in realistic scenarios using the CARLA
driving simulator, where CARFF can be used to enable efficient trajectory and
contingency planning in complex multi-agent autonomous driving scenarios
involving visual occlusions.
- Abstract(参考訳): 3次元シーン予測のための条件付き自動エンコードラミアンスフィールド(carff: conditional auto-encoded radiance field for 3d scene forecasting)を提案する。
本手法は,確率的エンコーダを用いて3次元潜在シーン構成の分布に画像をマッピングし,時間経過とともに仮想シーンの進化を予測する。
私たちの潜在シーン表現条件は,3次元シーンモデルを表現するためのグローバルニューラルラミアンスフィールド(nerf)であり,説明可能な予測と簡単な下流アプリケーションを可能にする。
このアプローチは、環境状態とダイナミクスにおける不確実性の複雑なシナリオを考慮して、従来のニューラルネットワークのレンダリング作業を超えて拡張される。
我々はPose-Conditional-VAEとNeRFの2段階のトレーニングを用いて3D表現を学習する。
さらに,混合密度ネットワークを用いて,潜在シーン表現を部分可観測マルコフ決定プロセスとして自己回帰的に予測する。
視覚閉塞を伴う複雑なマルチエージェント自律運転シナリオにおいて,carffを用いて効率的な軌道計画と随伴計画を実現するcarla driving simulatorを用いて,本手法の有用性を実証する。
関連論文リスト
- Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving [22.832008530490167]
2Dラベルの可能性を生かした半教師付き視覚中心型3D占有型世界モデルPreWorldを提案する。
PreWorldは、3D占有率予測、4D占有率予測、モーションプランニングタスクの競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T07:12:26Z) - SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation [50.420711084672966]
室内3Dセマンティック占有予測に適したRGBカメラベースモデルであるSliceOccを提案する。
EmbodiedScanデータセットの実験結果は、SliceOccが81の屋内カテゴリで15.45%のmIoUを達成したことを示している。
論文 参考訳(メタデータ) (2025-01-28T03:41:24Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction [9.639795825672023]
オフロード環境は幾何学的情報に富んでいるため、3Dセマンティック占有予測タスクに適している。
オフロード3Dセマンティック占有予測タスクに密接な占有アノテーションを提供する最初のベンチマークであるWildOccを紹介する。
本稿では, より現実的な結果を得るために, 粗大な再構成を用いた基礎的真理生成パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-21T09:02:40Z) - AdaOcc: Adaptive-Resolution Occupancy Prediction [20.0994984349065]
AdaOccは適応分解能でマルチモーダルな予測手法である。
提案手法は,オブジェクト中心の3次元再構成と全体的占有予測を一つのフレームワークに統合する。
近距離シナリオでは、以前のベースラインを13%以上、ハウスドルフ距離を40%以上上回る。
論文 参考訳(メタデータ) (2024-08-24T03:46:25Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Real-time 3D semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution [4.204990010424084]
自動運転車では、エゴ車の周囲の3D環境をリアルタイムで理解することが不可欠である。
State of the art 3D mapping method leverageer with cross-attention mechanism to elevate 2D vision-centric camera features into the 3D domain。
本稿では、正面2Dカメラ画像とLiDARスキャンから特徴を抽出し、3Dセマンティック占有予測にスパース畳み込みネットワーク(Minkowski Engine)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T17:50:59Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Learning Continuous Environment Fields via Implicit Functions [144.4913852552954]
本研究では,到達距離(シーン内の任意の位置から目標までの距離)を,実現可能な軌道に沿って符号化する新しいシーン表現を提案する。
本研究では,2次元迷路や屋内3次元シーンにおけるエージェントの動的挙動を直接導出できることを実証する。
論文 参考訳(メタデータ) (2021-11-27T22:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。