論文の概要: GA-Drive: Geometry-Appearance Decoupled Modeling for Free-viewpoint Driving Scene Generatio
- arxiv url: http://arxiv.org/abs/2602.20673v1
- Date: Tue, 24 Feb 2026 08:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.673589
- Title: GA-Drive: Geometry-Appearance Decoupled Modeling for Free-viewpoint Driving Scene Generatio
- Title(参考訳): GA-Drive:自由視点運転シーンジェネレーションのための幾何学的外観デカップリングモデリング
- Authors: Hao Zhang, Lue Fan, Qitai Wang, Wenbo Li, Zehuan Wu, Lewei Lu, Zhaoxiang Zhang, Hongsheng Li,
- Abstract要約: GA-Driveは,ユーザが指定した新規軌跡に沿ってカメラビューを生成可能な,新しいシミュレーションフレームワークである。
GA-Driveは幾何学情報を用いて新しい擬似ビューを合成する。
これらの擬似ビューは、訓練されたビデオ拡散モデルを用いてフォトリアリスティックビューに変換される。
- 参考スコア(独自算出の注目度): 62.07995406671134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A free-viewpoint, editable, and high-fidelity driving simulator is crucial for training and evaluating end-to-end autonomous driving systems. In this paper, we present GA-Drive, a novel simulation framework capable of generating camera views along user-specified novel trajectories through Geometry-Appearance Decoupling and Diffusion-Based Generation. Given a set of images captured along a recorded trajectory and the corresponding scene geometry, GA-Drive synthesizes novel pseudo-views using geometry information. These pseudo-views are then transformed into photorealistic views using a trained video diffusion model. In this way, we decouple the geometry and appearance of scenes. An advantage of such decoupling is its support for appearance editing via state-of-the-art video-to-video editing techniques, while preserving the underlying geometry, enabling consistent edits across both original and novel trajectories. Extensive experiments demonstrate that GA-Drive substantially outperforms existing methods in terms of NTA-IoU, NTL-IoU, and FID scores.
- Abstract(参考訳): 自由視点、編集可能、高忠実な運転シミュレータは、エンドツーエンドの自動運転システムの訓練と評価に不可欠である。
本稿では,Geometry-Appearance Decoupling と Diffusion-Based Generation を用いて,ユーザが指定した新規な軌跡に沿ってカメラビューを生成する新しいシミュレーションフレームワーク GA-Drive を提案する。
GA-Driveは、記録された軌跡と対応するシーン形状に沿って撮影された画像の集合を考慮し、幾何学情報を用いて新しい擬似ビューを合成する。
これらの擬似ビューは、訓練されたビデオ拡散モデルを用いてフォトリアリスティックビューに変換される。
このようにして、私たちは風景の幾何学と外観を分離する。
このようなデカップリングの利点は、最先端のビデオ-ビデオ編集技術による外観編集をサポートしながら、基礎となる幾何学を保ち、オリジナルと新規両方の軌跡を一貫した編集を可能にすることである。
GA-Driveは, NTA-IoU, NTL-IoU, FIDスコアにおいて, 既存の手法よりも大幅に優れていた。
関連論文リスト
- Visual Implicit Geometry Transformer for Autonomous Driving [7.795200422563638]
自律走行幾何学モデルである視覚インプリシット幾何変換器(ViGT)を導入する。
ViGTは、ドメイン固有の要件に対処する鳥眼ビュー(BEV)において、連続した3D占有領域を推定する。
5つの大規模自律走行データセットを混合してモデルをトレーニングすることで、我々のアプローチのスケーラビリティと一般化性を検証する。
論文 参考訳(メタデータ) (2026-02-05T11:54:38Z) - DVGT: Driving Visual Geometry Transformer [63.38483879291505]
駆動対象の高密度幾何知覚モデルは、異なるシナリオやカメラ構成に適応することができる。
提案するドライビング・ビジュアル・ジオメトリ・トランスフォーマ (DVGT) は, 広義の高密度な3Dポイントマップを, 複数視点の視覚入力の列から再構成する。
DVGTには、任意のカメラ構成のフレキシブルな処理を可能にする、明示的な3D幾何学的事前処理がない。
論文 参考訳(メタデータ) (2025-12-18T18:59:57Z) - Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry [41.904066758259624]
ビデオカメラトラジェクトリ編集のための新しいフレームワークであるVid-CamEditを紹介する。
我々のアプローチは、時間的に一貫した幾何を推定する2つのステップと、この幾何学によって導かれる生成的レンダリングからなる。
論文 参考訳(メタデータ) (2025-06-16T17:02:47Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。