論文の概要: DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input
- arxiv url: http://arxiv.org/abs/2409.12753v1
- Date: Thu, 19 Sep 2024 13:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:34:43.234412
- Title: DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input
- Title(参考訳): ドライビングフォワード:フレキシブル・サラウンド・ビュー・インプットによる3次元3次元ガウス切削
- Authors: Qijian Tian, Xin Tan, Yuan Xie, Lizhuang Ma,
- Abstract要約: フレキシブル・サラウンド・ビュー・インプットから運転シーンを再構成するフィードフォワードガウス・スプレイティング・モデルを提案する。
我々は、ポーズネットワーク、ディープネットワーク、およびガウスネットワークを共同でトレーニングし、運転シーンを表すプリミティブを予測する。
提案モデルでは,既存のフィードフォワードやシーン最適化の手法よりも再現性が高い。
- 参考スコア(独自算出の注目度): 45.04354435388718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DrivingForward, a feed-forward Gaussian Splatting model that reconstructs driving scenes from flexible surround-view input. Driving scene images from vehicle-mounted cameras are typically sparse, with limited overlap, and the movement of the vehicle further complicates the acquisition of camera extrinsics. To tackle these challenges and achieve real-time reconstruction, we jointly train a pose network, a depth network, and a Gaussian network to predict the Gaussian primitives that represent the driving scenes. The pose network and depth network determine the position of the Gaussian primitives in a self-supervised manner, without using depth ground truth and camera extrinsics during training. The Gaussian network independently predicts primitive parameters from each input image, including covariance, opacity, and spherical harmonics coefficients. At the inference stage, our model can achieve feed-forward reconstruction from flexible multi-frame surround-view input. Experiments on the nuScenes dataset show that our model outperforms existing state-of-the-art feed-forward and scene-optimized reconstruction methods in terms of reconstruction.
- Abstract(参考訳): フレキシブルなサラウンドビュー入力から運転シーンを再構成するフィードフォワードガウススプレイティングモデルであるドライビングフォワードを提案する。
車両に搭載されたカメラからのシーンイメージの運転は、通常は少ないが、オーバーラップは限定的であり、車両の動きは、カメラ外装の取得をさらに複雑にする。
これらの課題に対処し、リアルタイムな再構築を実現するため、我々はポーズ・ネットワーク、ディープ・ネットワーク、ガウス・ネットワークを共同で訓練し、ドライビングシーンを表すガウス的プリミティブを予測する。
ポーズネットワークと奥行きネットワークは、訓練中に奥行きの真実とカメラ外在物を用いることなく、ガウス原始体の位置を自己監督的に決定する。
ガウスネットワークは、共分散、不透明、球面調和係数を含む各入力画像から原始パラメータを独立に予測する。
推論段階では、フレキシブルなマルチフレームサラウンドビュー入力からフィードフォワードを復元することができる。
nuScenesデータセットの実験により、我々のモデルは、復元の観点から既存のフィードフォワードとシーン最適化の再構築方法よりも優れていることが示された。
関連論文リスト
- OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving [12.47557991785691]
我々は,LiDAR点雲をサラウンドビューカメラ画像から生成されたOG(Occupancy Grids)に置き換える新しいアプローチであるOG-Gaussianを提案する。
提案手法は,OGのセマンティック情報を利用して静的道路背景から動的車両を分離し,これらのグリッドを2つの初期点雲に変換し,静的物体と動的物体の両方を再構成する。
Openデータセットの実験では、OG-Gaussianは復元品質とレンダリング速度の点で現在の最先端と同等であり、平均PSNRは35.13、レンダリング速度は143 FPSであることが示された。
論文 参考訳(メタデータ) (2025-02-20T04:00:47Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [59.77970844874235]
スパースビュー画像から高品質な3Dガウス画像を生成することができるフィードフォワード再構築フレームワークであるFreeSplatterを提案する。
FreeSplatterは、シーケンシャルな自己アテンションブロックで構成される、合理化されたトランスフォーマーアーキテクチャ上に構築されている。
テキスト・画像・3Dコンテンツ作成など,下流アプリケーションの生産性を高めるFreeSplatterの可能性を示す。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - PreF3R: Pose-Free Feed-Forward 3D Gaussian Splatting from Variable-length Image Sequence [3.61512056914095]
可変長の画像列から,PreF3R, Pose-Free Feed-forward 3D再構成を提案する。
PreF3Rは、カメラキャリブレーションの必要性を排除し、正準座標フレーム内の3次元ガウス場を、未提示画像のシーケンスから直接再構成する。
論文 参考訳(メタデータ) (2024-11-25T19:16:29Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes [57.12439406121721]
我々は動的自律走行シーンを囲む効率的かつ効果的なフレームワークであるDrivingGaussianを提案する。
動くオブジェクトを持つ複雑なシーンでは、まずシーン全体の静的な背景を逐次、段階的にモデル化します。
次に、複合動的ガウスグラフを利用して、複数の移動物体を処理する。
我々はさらに、ガウススプラッティングに先立ってLiDARを使用して、より詳細でシーンを再構築し、パノラマ一貫性を維持する。
論文 参考訳(メタデータ) (2023-12-13T06:30:51Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth
Prediction for Autonomous Driving [18.02943016671203]
本研究では,自律走行シーンの高精度なスケール認識深度予測のための包括的自己教師型フレームワークを提案する。
特に,FSNetと呼ばれるフルスケール深度予測ネットワークを導入する。
FSNetを使えば、ロボットや車両は1台のカメラしか持たず、訓練用画像フレームやカメラポーズのシーケンスを収集し、余分なラベル付け作業や3Dデータなしで環境の正確な3D深度を推測することができる。
論文 参考訳(メタデータ) (2023-04-21T03:17:04Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。