論文の概要: DriveX: Driving View Synthesis on Free-form Trajectories with Generative Prior
- arxiv url: http://arxiv.org/abs/2412.01717v2
- Date: Mon, 07 Jul 2025 13:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.154565
- Title: DriveX: Driving View Synthesis on Free-form Trajectories with Generative Prior
- Title(参考訳): DriveX: 生成前の自由形軌道上の駆動ビュー合成
- Authors: Zeyu Yang, Zijie Pan, Yuankun Yang, Xiatian Zhu, Li Zhang,
- Abstract要約: DriveXは、新しいフリーフォーム駆動ビュー合成フレームワークである。
生成を最適化中に3次元ガウスモデルに蒸留する。
記録された軌道を超える高品質なビュー合成をリアルタイムで達成する。
- 参考スコア(独自算出の注目度): 39.24591650300784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driving view synthesis along free-form trajectories is essential for realistic driving simulations, enabling closed-loop evaluation of end-to-end driving policies. Existing methods excel at view interpolation along recorded paths but struggle to generalize to novel trajectories due to limited viewpoints in driving videos. To tackle this challenge, we propose DriveX, a novel free-form driving view synthesis framework, that progressively distills generative prior into the 3D Gaussian model during its optimization. Within this framework, we utilize a video diffusion model to refine the degraded novel trajectory renderings from the in-training Gaussian model, while the restored videos in turn serve as additional supervision for optimizing the 3D Gaussian. Concretely, we craft an inpainting-based video restoration task, which can disentangle the identification of degraded regions from the generative capability of the diffusion model and remove the need of simulating specific degraded pattern in the training of the diffusion model. To further enhance the consistency and fidelity of generated contents, the pseudo ground truth is progressively updated with gradually improved novel trajectory rendering, allowing both components to co-adapt and reinforce each other while minimizing the disruption on the optimization. By tightly integrating 3D scene representation with generative prior, DriveX achieves high-quality view synthesis beyond recorded trajectories in real time--unlocking new possibilities for flexible and realistic driving simulations on free-form trajectories.
- Abstract(参考訳): 現実的な運転シミュレーションには, 自由形軌道に沿っての視線合成が不可欠であり, エンドツーエンドの運転ポリシーのクローズドループ評価を可能にする。
既存の方法では、記録された経路に沿った視線補間が優れているが、動画の駆動の視点が限られているため、新しい軌跡への一般化に苦慮している。
この課題に対処するために、我々は、新しいフリーフォーム駆動ビュー合成フレームワークであるDriveXを提案し、その最適化中に生成物を3次元ガウスモデルに徐々に蒸留する。
この枠組みでは,映像拡散モデルを用いて,学習中のガウスモデルから劣化した新規軌跡の描画を洗練し,復元された映像は3Dガウスモデルを最適化するための追加の監督役として機能する。
具体的には、拡散モデルの生成能力から劣化領域の識別を分離し、拡散モデルのトレーニングにおいて特定の劣化パターンをシミュレートする必要性を除去する。
生成されたコンテンツの一貫性と忠実性をさらに向上するために、擬似基底真理を徐々に改善された新規軌跡レンダリングにより段階的に更新し、最適化における破壊を最小化しつつ、双方の成分が協調して強化されるようにする。
DriveXは3Dシーン表現を生成前と密に統合することにより、記録された軌跡を超えた高品質なビュー合成をリアルタイムに実現し、自由形軌跡上でのフレキシブルで現実的な運転シミュレーションの新たな可能性を解き放つ。
関連論文リスト
- DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。
具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。
次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文 参考訳(メタデータ) (2024-12-31T18:59:57Z) - Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。
Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。
空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-06T18:59:56Z) - InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。
制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文 参考訳(メタデータ) (2024-12-05T07:32:20Z) - From Dashcam Videos to Driving Simulations: Stress Testing Automated Vehicles against Rare Events [5.132984904858975]
現実的な運転シナリオを用いたシミュレーションにおける自動運転システム(ADS)のテストは、その性能を検証する上で重要である。
本稿では,現実の自動車事故映像の詳細なシミュレーションシナリオへの変換を自動化する新しいフレームワークを提案する。
予備結果は,完全自動化と人的介入を伴わず,リアルタイム変換を数分で完了させるという,かなりの時間効率を示した。
論文 参考訳(メタデータ) (2024-11-25T01:01:54Z) - FreeVS: Generative View Synthesis on Free Driving Trajectory [55.49370963413221]
FreeVSは、実際の運転シーンで、無料の新しい軌跡のカメラビューを合成できる、新しい完全に生成的なアプローチである。
FreeVSは、新しいトラジェクトリの再構成プロセスや合成ビューなしで、バリデーションシーケンスに適用できる。
論文 参考訳(メタデータ) (2024-10-23T17:59:11Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model [6.144680854063938]
GenDDSは、自律運転システムの運転シナリオを生成するための新しいアプローチである。
我々は、実際の運転ビデオを含むKITTIデータセットを使用して、モデルをトレーニングする。
実世界の運転シナリオの複雑さと変動性を密に再現した高品質な運転映像を,我々のモデルで生成できることを実証した。
論文 参考訳(メタデータ) (2024-08-28T15:37:44Z) - AutoSplat: Constrained Gaussian Splatting for Autonomous Driving Scene Reconstruction [17.600027937450342]
AutoSplatは、自動走行シーンの高度に現実的な再構築を実現するために、ガウシアンスプラッティングを使用したフレームワークである。
本手法は,車線変更を含む課題シナリオの多視点一貫したシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-07-02T18:36:50Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory
Diffusion [83.88829943619656]
本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。
我々のガイド付き拡散モデルでは,対象とする経路,速度,特定社会集団による軌道の制約が可能である。
本稿では,アニメーションコントローラのRLトレーニング中に学習した値関数を用いて,拡散を誘導し,特定のシナリオに適した軌道を生成することを提案する。
論文 参考訳(メタデータ) (2023-04-04T15:46:42Z) - Path Planning Followed by Kinodynamic Smoothing for Multirotor Aerial
Vehicles (MAVs) [61.94975011711275]
そこで本稿では,RRT*textquotedblrightのテキストを幾何学的にベースとした動き計画手法を提案する。
提案手法では,適応探索空間とステアリング機能を導入したオリジナルのRT*を改良した。
提案手法を様々なシミュレーション環境で検証した。
論文 参考訳(メタデータ) (2020-08-29T09:55:49Z) - LiDARsim: Realistic LiDAR Simulation by Leveraging the Real World [84.57894492587053]
物理に基づくシミュレーションと学習に基づくシミュレーションの両方のパワーをキャプチャする新しいシミュレータを開発した。
まず3Dシーン上でレイキャストを行い、次にディープニューラルネットワークを用いて物理シミュレーションから偏差を生成する。
本稿では,LiDARsimが長距離イベントにおける認識アルゴリズムのテストに有用であること,および安全クリティカルシナリオにおけるエンドツーエンドのクローズループ評価について紹介する。
論文 参考訳(メタデータ) (2020-06-16T17:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。