論文の概要: DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input
- arxiv url: http://arxiv.org/abs/2409.12753v2
- Date: Sat, 21 Dec 2024 06:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:21:22.155562
- Title: DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input
- Title(参考訳): ドライビングフォワード:フレキシブル・サラウンド・ビュー・インプットによる3次元3次元ガウス切削
- Authors: Qijian Tian, Xin Tan, Yuan Xie, Lizhuang Ma,
- Abstract要約: フレキシブル・サラウンド・ビュー・インプットから運転シーンを再構成するフィードフォワードガウス・スプレイティング・モデルを提案する。
我々は、ポーズネットワーク、ディープネットワーク、およびガウスネットワークを共同でトレーニングし、運転シーンを表すプリミティブを予測する。
提案モデルでは,既存のフィードフォワードやシーン最適化の手法よりも再現性が高い。
- 参考スコア(独自算出の注目度): 45.04354435388718
- License:
- Abstract: We propose DrivingForward, a feed-forward Gaussian Splatting model that reconstructs driving scenes from flexible surround-view input. Driving scene images from vehicle-mounted cameras are typically sparse, with limited overlap, and the movement of the vehicle further complicates the acquisition of camera extrinsics. To tackle these challenges and achieve real-time reconstruction, we jointly train a pose network, a depth network, and a Gaussian network to predict the Gaussian primitives that represent the driving scenes. The pose network and depth network determine the position of the Gaussian primitives in a self-supervised manner, without using depth ground truth and camera extrinsics during training. The Gaussian network independently predicts primitive parameters from each input image, including covariance, opacity, and spherical harmonics coefficients. At the inference stage, our model can achieve feed-forward reconstruction from flexible multi-frame surround-view input. Experiments on the nuScenes dataset show that our model outperforms existing state-of-the-art feed-forward and scene-optimized reconstruction methods in terms of reconstruction.
- Abstract(参考訳): フレキシブルなサラウンドビュー入力から運転シーンを再構成するフィードフォワードガウススプレイティングモデルであるドライビングフォワードを提案する。
車両に搭載されたカメラからのシーンイメージの運転は、通常は少ないが、オーバーラップは限定的であり、車両の動きは、カメラ外装の取得をさらに複雑にする。
これらの課題に対処し、リアルタイムな再構築を実現するため、我々はポーズ・ネットワーク、ディープ・ネットワーク、ガウス・ネットワークを共同で訓練し、ドライビングシーンを表すガウス的プリミティブを予測する。
ポーズネットワークと奥行きネットワークは、訓練中に奥行きの真実とカメラ外在物を用いることなく、ガウス原始体の位置を自己監督的に決定する。
ガウスネットワークは、共分散、不透明、球面調和係数を含む各入力画像から原始パラメータを独立に予測する。
推論段階では、フレキシブルなマルチフレームサラウンドビュー入力からフィードフォワードを復元することができる。
nuScenesデータセットの実験により、我々のモデルは、復元の観点から既存のフィードフォワードとシーン最適化の再構築方法よりも優れていることが示された。
関連論文リスト
- PreF3R: Pose-Free Feed-Forward 3D Gaussian Splatting from Variable-length Image Sequence [3.61512056914095]
可変長の画像列から,PreF3R, Pose-Free Feed-forward 3D再構成を提案する。
PreF3Rは、カメラキャリブレーションの必要性を排除し、正準座標フレーム内の3次元ガウス場を、未提示画像のシーケンスから直接再構成する。
論文 参考訳(メタデータ) (2024-11-25T19:16:29Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes [57.12439406121721]
我々は動的自律走行シーンを囲む効率的かつ効果的なフレームワークであるDrivingGaussianを提案する。
動くオブジェクトを持つ複雑なシーンでは、まずシーン全体の静的な背景を逐次、段階的にモデル化します。
次に、複合動的ガウスグラフを利用して、複数の移動物体を処理する。
我々はさらに、ガウススプラッティングに先立ってLiDARを使用して、より詳細でシーンを再構築し、パノラマ一貫性を維持する。
論文 参考訳(メタデータ) (2023-12-13T06:30:51Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth
Prediction for Autonomous Driving [18.02943016671203]
本研究では,自律走行シーンの高精度なスケール認識深度予測のための包括的自己教師型フレームワークを提案する。
特に,FSNetと呼ばれるフルスケール深度予測ネットワークを導入する。
FSNetを使えば、ロボットや車両は1台のカメラしか持たず、訓練用画像フレームやカメラポーズのシーケンスを収集し、余分なラベル付け作業や3Dデータなしで環境の正確な3D深度を推測することができる。
論文 参考訳(メタデータ) (2023-04-21T03:17:04Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - Nerfies: Deformable Neural Radiance Fields [44.923025540903886]
携帯電話からカジュアルに撮影した写真やビデオを用いて、変形可能なシーンをリアルに再構築する最初の方法を提案する。
提案手法は、観測された各点を正準5D NeRFに湾曲する追加の連続体積変形場を最適化することにより、ニューラルラジアンス場(NeRF)を増強する。
提案手法は,非厳密な場面を忠実に再構築し,不明瞭な視点を高い忠実度で再現する。
論文 参考訳(メタデータ) (2020-11-25T18:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。