論文の概要: AutoScape: Geometry-Consistent Long-Horizon Scene Generation
- arxiv url: http://arxiv.org/abs/2510.20726v1
- Date: Thu, 23 Oct 2025 16:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.425073
- Title: AutoScape: Geometry-Consistent Long-Horizon Scene Generation
- Title(参考訳): AutoScape:Geometry-Consistent Long-Horizon Scene Generation
- Authors: Jiacheng Chen, Ziyu Jiang, Mingfu Liang, Bingbing Zhuang, Jong-Chyi Su, Sparsh Garg, Ying Wu, Manmohan Chandraker,
- Abstract要約: AutoScapeは長距離走行シーン生成フレームワークである。
20秒以上のリアルで幾何学的に一貫したドライビングビデオを生成する。
ロングホライゾンのFIDとFVDのスコアは、それぞれ48.6%、FVDは43.0%向上している。
- 参考スコア(独自算出の注目度): 69.2451355181344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes AutoScape, a long-horizon driving scene generation framework. At its core is a novel RGB-D diffusion model that iteratively generates sparse, geometrically consistent keyframes, serving as reliable anchors for the scene's appearance and geometry. To maintain long-range geometric consistency, the model 1) jointly handles image and depth in a shared latent space, 2) explicitly conditions on the existing scene geometry (i.e., rendered point clouds) from previously generated keyframes, and 3) steers the sampling process with a warp-consistent guidance. Given high-quality RGB-D keyframes, a video diffusion model then interpolates between them to produce dense and coherent video frames. AutoScape generates realistic and geometrically consistent driving videos of over 20 seconds, improving the long-horizon FID and FVD scores over the prior state-of-the-art by 48.6\% and 43.0\%, respectively.
- Abstract(参考訳): 本稿では,長距離走行シーン生成フレームワークAutoScapeを提案する。
中心となるのがRGB-D拡散モデルで、粗い、幾何学的に整合したキーフレームを反復的に生成し、シーンの外観と幾何学の信頼性の高いアンカーとして機能する。
長距離幾何整合性を維持するためのモデル
1)共有潜在空間における画像と深度を共同処理する。
2) 前述したキーフレームから既存のシーン形状(すなわち、点雲)を明示的に規定し、
3)ワープ一貫性ガイダンスによるサンプリングプロセスの運営。
高品質なRGB-Dキーフレームが与えられた後、ビデオ拡散モデルはそれらの間に補間し、密集したコヒーレントなビデオフレームを生成する。
AutoScapeは20秒以上のリアルかつ幾何学的に一貫したドライビングビデオを生成し、従来の最先端のFIDとFVDのスコアをそれぞれ48.6\%と43.0\%改善した。
関連論文リスト
- DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion [62.589889759543446]
DriveGen3Dは、高品質で制御可能な動的3D駆動シーンを生成するための新しいフレームワークである。
本研究は,映像の高速化と大規模動的シーン再構築を融合させることにより,この手法のギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-10-17T03:00:08Z) - 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation [55.29423122177883]
3DScenePromptは任意の長さの入力から次のチャンクを生成するフレームワークである。
カメラの制御とシーンの一貫性の維持を可能にする。
我々のフレームワークは、シーンの一貫性、カメラ制御性、生成品質において、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-16T17:55:25Z) - ShapeGen4D: Towards High Quality 4D Shape Generation from Videos [85.45517487721257]
ビデオからエンドツーエンドに1つの動的3次元表現を合成する,ネイティブなビデオから4次元の形状生成フレームワークを提案する。
本手法は,フレームごとの最適化を行なわずに,非剛性運動,体積変化,および位相遷移を正確にキャプチャする。
論文 参考訳(メタデータ) (2025-10-07T17:58:11Z) - 4D Driving Scene Generation With Stereo Forcing [62.47705572424127]
現在の生成モデルは、時間外挿と空間的新規ビュー合成(NVS)をシーンごとの最適化なしで同時にサポートする動的4D駆動シーンの合成に苦慮している。
PhiGenesisは、幾何学的・時間的整合性を持った映像生成技術を拡張する4次元シーン生成のための統合フレームワークである。
論文 参考訳(メタデータ) (2025-09-24T15:37:17Z) - MeSS: City Mesh-Guided Outdoor Scene Generation with Cross-View Consistent Diffusion [45.67028461223564]
メッシュモデルは、多くの都市で利用できるようになったが、現実的なテクスチャの欠如により、仮想都市ナビゲーションや自動運転への応用は制限されている。
本稿では,都市メッシュモデルを用いた高品質でスタイル整合な屋外シーンを生成するためのSplat MeSS(Meshbased Scene Synthesis)を提案する。
論文 参考訳(メタデータ) (2025-08-21T02:16:15Z) - D-FCGS: Feedforward Compression of Dynamic Gaussian Splatting for Free-Viewpoint Videos [12.24209693552492]
自由視点ビデオ(FVV)は没入型3D体験を可能にするが、動的3D表現の効率的な圧縮は依然として大きな課題である。
本稿では,時間的に相関したガウス点雲列を圧縮する新しいフィードフォワードフレームワークである動的ガウス散乱(D-FCGS)のフィードフォワード圧縮を提案する。
実験の結果,最適化手法の速度歪み特性と一致し,40倍以上の圧縮を2秒以内で達成した。
論文 参考訳(メタデータ) (2025-07-08T10:39:32Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - DoubleTake: Geometry Guided Depth Estimation [17.464549832122714]
RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。
本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。
本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
論文 参考訳(メタデータ) (2024-06-26T14:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。