Fugu-MT 論文翻訳(概要): DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input

論文の概要: DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input

arxiv url: http://arxiv.org/abs/2409.12753v2
Date: Sat, 21 Dec 2024 06:32:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.701981
Title: DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input
Title（参考訳）: ドライビングフォワード:フレキシブル・サラウンド・ビュー・インプットによる3次元3次元ガウス切削
Authors: Qijian Tian, Xin Tan, Yuan Xie, Lizhuang Ma,
Abstract要約: フレキシブル・サラウンド・ビュー・インプットから運転シーンを再構成するフィードフォワードガウス・スプレイティング・モデルを提案する。我々は、ポーズネットワーク、ディープネットワーク、およびガウスネットワークを共同でトレーニングし、運転シーンを表すプリミティブを予測する。提案モデルでは,既存のフィードフォワードやシーン最適化の手法よりも再現性が高い。
参考スコア（独自算出の注目度）: 45.04354435388718
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose DrivingForward, a feed-forward Gaussian Splatting model that reconstructs driving scenes from flexible surround-view input. Driving scene images from vehicle-mounted cameras are typically sparse, with limited overlap, and the movement of the vehicle further complicates the acquisition of camera extrinsics. To tackle these challenges and achieve real-time reconstruction, we jointly train a pose network, a depth network, and a Gaussian network to predict the Gaussian primitives that represent the driving scenes. The pose network and depth network determine the position of the Gaussian primitives in a self-supervised manner, without using depth ground truth and camera extrinsics during training. The Gaussian network independently predicts primitive parameters from each input image, including covariance, opacity, and spherical harmonics coefficients. At the inference stage, our model can achieve feed-forward reconstruction from flexible multi-frame surround-view input. Experiments on the nuScenes dataset show that our model outperforms existing state-of-the-art feed-forward and scene-optimized reconstruction methods in terms of reconstruction.
Abstract（参考訳）: フレキシブルなサラウンドビュー入力から運転シーンを再構成するフィードフォワードガウススプレイティングモデルであるドライビングフォワードを提案する。車両に搭載されたカメラからのシーンイメージの運転は、通常は少ないが、オーバーラップは限定的であり、車両の動きは、カメラ外装の取得をさらに複雑にする。これらの課題に対処し、リアルタイムな再構築を実現するため、我々はポーズ・ネットワーク、ディープ・ネットワーク、ガウス・ネットワークを共同で訓練し、ドライビングシーンを表すガウス的プリミティブを予測する。ポーズネットワークと奥行きネットワークは、訓練中に奥行きの真実とカメラ外在物を用いることなく、ガウス原始体の位置を自己監督的に決定する。ガウスネットワークは、共分散、不透明、球面調和係数を含む各入力画像から原始パラメータを独立に予測する。推論段階では、フレキシブルなマルチフレームサラウンドビュー入力からフィードフォワードを復元することができる。 nuScenesデータセットの実験により、我々のモデルは、復元の観点から既存のフィードフォワードとシーン最適化の再構築方法よりも優れていることが示された。

関連論文リスト

HoliGS: Holistic Gaussian Splatting for Embodied View Synthesis [59.25751939710903]
本稿では,長い単眼RGBビデオのエンボディドビュー合成に対処する,変形可能なガウススプラッティングフレームワークを提案する。提案手法は,非可逆ガウス散乱変形ネットワークを利用して大規模動的環境を正確に再構築する。その結果、現実のシナリオにおけるEVSの実用的でスケーラブルなソリューションが浮かび上がっています。
論文参考訳（メタデータ） (2025-06-24T03:54:40Z)
Hybrid Rendering for Multimodal Autonomous Driving: Merging Neural and Physics-Based Simulation [1.0027737736304287]
ニューラル再構成の強みと物理ベースのレンダリングを組み合わせたハイブリッドアプローチを導入する。提案手法は,特に道路面やレーンマーキングにおいて,新規なビュー合成品質を著しく向上させる。ノイズの多いLiDAR点雲からの奥行き正則化により、元の画像上でカスタマイズされたNeRFモデルをトレーニングすることで、これを実現する。
論文参考訳（メタデータ） (2025-03-12T15:18:50Z)
OG-Gaussian: Occupancy Based Street Gaussians for Autonomous Driving [12.47557991785691]
我々は,LiDAR点雲をサラウンドビューカメラ画像から生成されたOG(Occupancy Grids)に置き換える新しいアプローチであるOG-Gaussianを提案する。提案手法は,OGのセマンティック情報を利用して静的道路背景から動的車両を分離し,これらのグリッドを2つの初期点雲に変換し,静的物体と動的物体の両方を再構成する。 Openデータセットの実験では、OG-Gaussianは復元品質とレンダリング速度の点で現在の最先端と同等であり、平均PSNRは35.13、レンダリング速度は143 FPSであることが示された。
論文参考訳（メタデータ） (2025-02-20T04:00:47Z)
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [59.77970844874235]
スパースビュー画像から高品質な3Dガウス画像を生成することができるフィードフォワード再構築フレームワークであるFreeSplatterを提案する。 FreeSplatterは、シーケンシャルな自己アテンションブロックで構成される、合理化されたトランスフォーマーアーキテクチャ上に構築されている。テキスト・画像・3Dコンテンツ作成など,下流アプリケーションの生産性を高めるFreeSplatterの可能性を示す。
論文参考訳（メタデータ） (2024-12-12T18:52:53Z)
PreF3R: Pose-Free Feed-Forward 3D Gaussian Splatting from Variable-length Image Sequence [3.61512056914095]
可変長の画像列から,PreF3R, Pose-Free Feed-forward 3D再構成を提案する。 PreF3Rは、カメラキャリブレーションの必要性を排除し、正準座標フレーム内の3次元ガウス場を、未提示画像のシーケンスから直接再構成する。
論文参考訳（メタデータ） (2024-11-25T19:16:29Z)
Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文参考訳（メタデータ） (2024-02-22T18:59:56Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes [57.12439406121721]
我々は動的自律走行シーンを囲む効率的かつ効果的なフレームワークであるDrivingGaussianを提案する。動くオブジェクトを持つ複雑なシーンでは、まずシーン全体の静的な背景を逐次、段階的にモデル化します。次に、複合動的ガウスグラフを利用して、複数の移動物体を処理する。我々はさらに、ガウススプラッティングに先立ってLiDARを使用して、より詳細でシーンを再構築し、パノラマ一貫性を維持する。
論文参考訳（メタデータ） (2023-12-13T06:30:51Z)
Learning Robust Multi-Scale Representation for Neural Radiance Fields from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文参考訳（メタデータ） (2023-11-08T08:18:23Z)
FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文参考訳（メタデータ） (2023-05-31T20:58:46Z)
FSNet: Redesign Self-Supervised MonoDepth for Full-Scale Depth Prediction for Autonomous Driving [18.02943016671203]
本研究では,自律走行シーンの高精度なスケール認識深度予測のための包括的自己教師型フレームワークを提案する。特に,FSNetと呼ばれるフルスケール深度予測ネットワークを導入する。 FSNetを使えば、ロボットや車両は1台のカメラしか持たず、訓練用画像フレームやカメラポーズのシーケンスを収集し、余分なラベル付け作業や3Dデータなしで環境の正確な3D深度を推測することができる。
論文参考訳（メタデータ） (2023-04-21T03:17:04Z)
RelPose: Predicting Probabilistic Relative Rotation for Single Objects in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文参考訳（メタデータ） (2022-08-11T17:59:59Z)
Nerfies: Deformable Neural Radiance Fields [44.923025540903886]
携帯電話からカジュアルに撮影した写真やビデオを用いて、変形可能なシーンをリアルに再構築する最初の方法を提案する。提案手法は、観測された各点を正準5D NeRFに湾曲する追加の連続体積変形場を最適化することにより、ニューラルラジアンス場(NeRF)を増強する。提案手法は,非厳密な場面を忠実に再構築し,不明瞭な視点を高い忠実度で再現する。
論文参考訳（メタデータ） (2020-11-25T18:55:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。