論文の概要: DriveExplorer: Images-Only Decoupled 4D Reconstruction with Progressive Restoration for Driving View Extrapolation
- arxiv url: http://arxiv.org/abs/2512.23983v1
- Date: Tue, 30 Dec 2025 04:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.2809
- Title: DriveExplorer: Images-Only Decoupled 4D Reconstruction with Progressive Restoration for Driving View Extrapolation
- Title(参考訳): DriveExplorer: ドライブビュー外挿のためのプログレッシブリカバリによる画像専用4D再構成
- Authors: Yuang Jia, Jinlong Wang, Jiayi Zhao, Chunlam Li, Shunzhou Wang, Wei Gao,
- Abstract要約: 本稿では,自律運転シナリオにおける視線外挿の有効解を提案する。
近年のアプローチは、拡散モデルを用いて、与えられた視点からシフトした新しいビュー画像を生成することに焦点を当てている。
本手法は,ベースラインと比較して,新規な外挿視点で高品質な画像を生成する。
- 参考スコア(独自算出の注目度): 12.714087160353317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an effective solution for view extrapolation in autonomous driving scenarios. Recent approaches focus on generating shifted novel view images from given viewpoints using diffusion models. However, these methods heavily rely on priors such as LiDAR point clouds, 3D bounding boxes, and lane annotations, which demand expensive sensors or labor-intensive labeling, limiting applicability in real-world deployment. In this work, with only images and optional camera poses, we first estimate a global static point cloud and per-frame dynamic point clouds, fusing them into a unified representation. We then employ a deformable 4D Gaussian framework to reconstruct the scene. The initially trained 4D Gaussian model renders degraded and pseudo-images to train a video diffusion model. Subsequently, progressively shifted Gaussian renderings are iteratively refined by the diffusion model,and the enhanced results are incorporated back as training data for 4DGS. This process continues until extrapolation reaches the target viewpoints. Compared with baselines, our method produces higher-quality images at novel extrapolated viewpoints.
- Abstract(参考訳): 本稿では,自律運転シナリオにおける視線外挿の有効解を提案する。
近年のアプローチは、拡散モデルを用いて、与えられた視点からシフトした新しいビュー画像を生成することに焦点を当てている。
しかし、これらの手法は、LiDARポイントクラウドや3Dバウンディングボックス、レーンアノテーションといった、高価なセンサーや労働集約的なラベリングを必要とする先行技術に大きく依存している。
この作業では、画像とオプションのカメラポーズだけで、まずグローバルな静的点クラウドとフレーム単位の動的点クラウドを推定し、それらを統一された表現に融合する。
次に、変形可能な4Dガウスの枠組みを用いてシーンを再構築する。
当初訓練された4Dガウスモデルは、ビデオ拡散モデルをトレーニングするために劣化と擬似イメージを描画する。
その後、段階的にシフトしたガウスレンダリングを拡散モデルにより反復的に洗練し、拡張結果を4DGSのトレーニングデータとして組み込む。
このプロセスは、外挿が対象の視点に到達するまで続く。
本手法は,ベースラインと比較して,新規な外挿視点で高品質な画像を生成する。
関連論文リスト
- Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - SEE4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting [83.5106058182799]
SEE4Dは, カジュアルビデオから4次元世界モデリングを行うための, ポーズのないトラジェクトリ・ツー・カメラ・フレームワークである。
モデル内のビュー条件ビデオは、現実的に合成された画像を認知する前に、ロバストな幾何学を学ぶために訓練される。
クロスビュービデオ生成とスパース再構成のベンチマークでSee4Dを検証した。
論文 参考訳(メタデータ) (2025-10-30T17:59:39Z) - WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving [21.778139777889397]
4次元駆動シーン生成のための新しいフィードフォワードフレームワークであるWorldSplatを提案する。
提案手法は,2つのステップで一貫したマルチトラック映像を効果的に生成する。
ベンチマークデータセットを用いて行った実験は、WorldSplatが高忠実で時間的に空間的に一貫した新しいビュー駆動動画を効果的に生成することを示した。
論文 参考訳(メタデータ) (2025-09-27T16:47:44Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - DrivingRecon: Large 4D Gaussian Reconstruction Model For Autonomous Driving [83.27075316161086]
光リアルな4次元ストリートシーンの再構築は、自動運転における実環境シミュレータの開発に不可欠である。
本稿では,汎用的な運転シーン再構築モデルであるLarge 4D Gaussian Reconstruction Model (DrivingRecon)を紹介する。
ドライビングレコンは既存の手法に比べてシーンの再現性や新しいビュー合成を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-12T08:10:31Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。