論文の概要: CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
- arxiv url: http://arxiv.org/abs/2401.18075v1
- Date: Wed, 31 Jan 2024 18:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:29:07.370586
- Title: CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting
- Title(参考訳): carff:3次元シーン予測のための条件付き自動エンコードラミアンスフィールド
- Authors: Jiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas
Rhinehart, Rowan McAllister, Joseph Gonzalez
- Abstract要約: CARFF: 3次元シーン予測のための条件付き自動符号化レーダランスフィールドを提案する。
本手法は,確率エンコーダを用いて,画像の3次元潜在シーン構成上の分布にマッピングする。
CarFFは、複雑なマルチエージェント自律運転シナリオにおける効率的な軌道計画と緊急計画を可能にするために使用できる。
- 参考スコア(独自算出の注目度): 16.164569768091486
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose CARFF: Conditional Auto-encoded Radiance Field for 3D Scene
Forecasting, a method for predicting future 3D scenes given past observations,
such as 2D ego-centric images. Our method maps an image to a distribution over
plausible 3D latent scene configurations using a probabilistic encoder, and
predicts the evolution of the hypothesized scenes through time. Our latent
scene representation conditions a global Neural Radiance Field (NeRF) to
represent a 3D scene model, which enables explainable predictions and
straightforward downstream applications. This approach extends beyond previous
neural rendering work by considering complex scenarios of uncertainty in
environmental states and dynamics. We employ a two-stage training of
Pose-Conditional-VAE and NeRF to learn 3D representations. Additionally, we
auto-regressively predict latent scene representations as a partially
observable Markov decision process, utilizing a mixture density network. We
demonstrate the utility of our method in realistic scenarios using the CARLA
driving simulator, where CARFF can be used to enable efficient trajectory and
contingency planning in complex multi-agent autonomous driving scenarios
involving visual occlusions.
- Abstract(参考訳): 3次元シーン予測のための条件付き自動エンコードラミアンスフィールド(carff: conditional auto-encoded radiance field for 3d scene forecasting)を提案する。
本手法は,確率的エンコーダを用いて3次元潜在シーン構成の分布に画像をマッピングし,時間経過とともに仮想シーンの進化を予測する。
私たちの潜在シーン表現条件は,3次元シーンモデルを表現するためのグローバルニューラルラミアンスフィールド(nerf)であり,説明可能な予測と簡単な下流アプリケーションを可能にする。
このアプローチは、環境状態とダイナミクスにおける不確実性の複雑なシナリオを考慮して、従来のニューラルネットワークのレンダリング作業を超えて拡張される。
我々はPose-Conditional-VAEとNeRFの2段階のトレーニングを用いて3D表現を学習する。
さらに,混合密度ネットワークを用いて,潜在シーン表現を部分可観測マルコフ決定プロセスとして自己回帰的に予測する。
視覚閉塞を伴う複雑なマルチエージェント自律運転シナリオにおいて,carffを用いて効率的な軌道計画と随伴計画を実現するcarla driving simulatorを用いて,本手法の有用性を実証する。
関連論文リスト
- Real-time 3D semantic occupancy prediction for autonomous vehicles using
memory-efficient sparse convolution [4.9676386555813545]
自動運転車では、エゴ車の周囲の3D環境をリアルタイムで理解することが不可欠である。
State of the art 3D mapping method leverageer with cross-attention mechanism to elevate 2D vision-centric camera features into the 3D domain。
本稿では、正面2Dカメラ画像とLiDARスキャンから特徴を抽出し、3Dセマンティック占有予測にスパース畳み込みネットワーク(Minkowski Engine)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T17:50:59Z) - Neural Rendering based Urban Scene Reconstruction for Autonomous Driving [8.007494499012624]
ニューラルな暗黙表面と放射場を組み合わせたフレームワークを用いたマルチモーダル3次元シーン再構成を提案する。
Dense 3Dリコンストラクションは、自動アノテーションバリデーションを含む自動走行に多くの応用がある。
我々は,挑戦的な自動車シーンの質的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-02-09T23:20:23Z) - OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural
Radiance Fields [80.35807140179736]
自己監督型マルチカメラ占有率予測のためのOccNeRF法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成する。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - Learning Continuous Environment Fields via Implicit Functions [144.4913852552954]
本研究では,到達距離(シーン内の任意の位置から目標までの距離)を,実現可能な軌道に沿って符号化する新しいシーン表現を提案する。
本研究では,2次元迷路や屋内3次元シーンにおけるエージェントの動的挙動を直接導出できることを実証する。
論文 参考訳(メタデータ) (2021-11-27T22:36:58Z) - Probabilistic Vehicle Reconstruction Using a Multi-Task CNN [0.0]
ステレオ画像からの形状認識型3D車両再構成のための確率論的アプローチを提案する。
具体的には、車両の向きと車両のキーポイントとワイヤフレームエッジの両方の確率分布を出力するCNNを訓練する。
本手法が最先端の結果を達成し、挑戦的なKITTIベンチマークで評価することを示した。
論文 参考訳(メタデータ) (2021-02-21T20:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。