論文の概要: CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
- arxiv url: http://arxiv.org/abs/2401.18075v1
- Date: Wed, 31 Jan 2024 18:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:29:07.370586
- Title: CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
- Title(参考訳): carff:3次元シーン予測のための条件付き自動エンコードラミアンスフィールド
- Authors: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas
Rhinehart, Rowan McAllister, Joseph Gonzalez
- Abstract要約: CARFF: 3次元シーン予測のための条件付き自動符号化レーダランスフィールドを提案する。
本手法は,確率エンコーダを用いて,画像の3次元潜在シーン構成上の分布にマッピングする。
CarFFは、複雑なマルチエージェント自律運転シナリオにおける効率的な軌道計画と緊急計画を可能にするために使用できる。
- 参考スコア(独自算出の注目度): 16.164569768091486
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene
Forecasting, a method for predicting future 3D scenes given past observations,
such as 2D ego-centric images. Our method maps an image to a distribution over
plausible 3D latent scene configurations using a probabilistic encoder, and
predicts the evolution of the hypothesized scenes through time. Our latent
scene representation conditions a global Neural Radiance Field (NeRF) to
represent a 3D scene model, which enables explainable predictions and
straightforward downstream applications. This approach extends beyond previous
neural rendering work by considering complex scenarios of uncertainty in
environmental states and dynamics. We employ a two-stage training of
Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we
auto-regressively predict latent scene representations as a partially
observable Markov decision process, utilizing a mixture density network. We
demonstrate the utility of our method in realistic scenarios using the CARLA
driving simulator, where CARFF can be used to enable efficient trajectory and
contingency planning in complex multi-agent autonomous driving scenarios
involving visual occlusions.
- Abstract(参考訳): 3次元シーン予測のための条件付き自動エンコードラミアンスフィールド(carff: conditional auto-encoded radiance field for 3d scene forecasting)を提案する。
本手法は,確率的エンコーダを用いて3次元潜在シーン構成の分布に画像をマッピングし,時間経過とともに仮想シーンの進化を予測する。
私たちの潜在シーン表現条件は,3次元シーンモデルを表現するためのグローバルニューラルラミアンスフィールド(nerf)であり,説明可能な予測と簡単な下流アプリケーションを可能にする。
このアプローチは、環境状態とダイナミクスにおける不確実性の複雑なシナリオを考慮して、従来のニューラルネットワークのレンダリング作業を超えて拡張される。
我々はPose-Conditional-VAEとNeRFの2段階のトレーニングを用いて3D表現を学習する。
さらに,混合密度ネットワークを用いて,潜在シーン表現を部分可観測マルコフ決定プロセスとして自己回帰的に予測する。
視覚閉塞を伴う複雑なマルチエージェント自律運転シナリオにおいて,carffを用いて効率的な軌道計画と随伴計画を実現するcarla driving simulatorを用いて,本手法の有用性を実証する。
関連論文リスト
- WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction [9.639795825672023]
オフロード環境は幾何学的情報に富んでいるため、3Dセマンティック占有予測タスクに適している。
オフロード3Dセマンティック占有予測タスクに密接な占有アノテーションを提供する最初のベンチマークであるWildOccを紹介する。
本稿では, より現実的な結果を得るために, 粗大な再構成を用いた基礎的真理生成パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-21T09:02:40Z) - AdaOcc: Adaptive-Resolution Occupancy Prediction [20.0994984349065]
AdaOccは適応分解能でマルチモーダルな予測手法である。
提案手法は,オブジェクト中心の3次元再構成と全体的占有予測を一つのフレームワークに統合する。
近距離シナリオでは、以前のベースラインを13%以上、ハウスドルフ距離を40%以上上回る。
論文 参考訳(メタデータ) (2024-08-24T03:46:25Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - Real-time 3D semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution [4.204990010424084]
自動運転車では、エゴ車の周囲の3D環境をリアルタイムで理解することが不可欠である。
State of the art 3D mapping method leverageer with cross-attention mechanism to elevate 2D vision-centric camera features into the 3D domain。
本稿では、正面2Dカメラ画像とLiDARスキャンから特徴を抽出し、3Dセマンティック占有予測にスパース畳み込みネットワーク(Minkowski Engine)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T17:50:59Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - ONCE-3DLanes: Building Monocular 3D Lane Detection [41.46466150783367]
OnCE-3DLanesは3次元空間にレーンレイアウトアノテーションを付加した実世界の自律走行データセットである。
点雲と画像ピクセルとの明確な関係を利用して、データセットのアノテーションパイプラインは、高品質な3Dレーンの位置を自動的に生成するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T16:35:25Z) - Learning Continuous Environment Fields via Implicit Functions [144.4913852552954]
本研究では,到達距離(シーン内の任意の位置から目標までの距離)を,実現可能な軌道に沿って符号化する新しいシーン表現を提案する。
本研究では,2次元迷路や屋内3次元シーンにおけるエージェントの動的挙動を直接導出できることを実証する。
論文 参考訳(メタデータ) (2021-11-27T22:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。