Fugu-MT 論文翻訳(概要): DriveFix: Spatio-Temporally Coherent Driving Scene Restoration

論文の概要: DriveFix: Spatio-Temporally Coherent Driving Scene Restoration

arxiv url: http://arxiv.org/abs/2603.16306v1
Date: Tue, 17 Mar 2026 09:41:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.202108
Title: DriveFix: Spatio-Temporally Coherent Driving Scene Restoration
Title（参考訳）: DriveFix:時空コヒーレントな運転シーンの復元
Authors: Heyu Si, Brandon James Denis, Muyang Sun, Dragos Datcu, Yaoru Li, Xin Jin, Ruiju Fu, Yuliia Tatarinova, Federico Landi, Jie Song, Mingli Song, Qi Guo,
Abstract要約: DriveFixは、自動運転シーンのための新しいマルチビュー復元フレームワークである。提案手法では,時間的空間コヒーレンスとクロスカメラ空間コヒーレンスの両方をモデル化するために,特殊なブロックを持つインターリーブ拡散トランスフォーマアーキテクチャを用いる。復元されたビューは統一された3D幾何学に従属し、アーティファクトを著しく減少させる。
参考スコア（独自算出の注目度）: 42.359886606034536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in 4D scene reconstruction, particularly those leveraging diffusion priors, have shown promise for novel view synthesis in autonomous driving. However, these methods often process frames independently or in a view-by-view manner, leading to a critical lack of spatio-temporal synergy. This results in spatial misalignment across cameras and temporal drift in sequences. We propose DriveFix, a novel multi-view restoration framework that ensures spatio-temporal coherence for driving scenes. Our approach employs an interleaved diffusion transformer architecture with specialized blocks to explicitly model both temporal dependencies and cross-camera spatial consistency. By conditioning the generation on historical context and integrating geometry-aware training losses, DriveFix enforces that the restored views adhere to a unified 3D geometry. This enables the consistent propagation of high-fidelity textures and significantly reduces artifacts. Extensive evaluations on the Waymo, nuScenes, and PandaSet datasets demonstrate that DriveFix achieves state-of-the-art performance in both reconstruction and novel view synthesis, marking a substantial step toward robust 4D world modeling for real-world deployment.
Abstract（参考訳）: 近年の4次元シーン再構成の進歩、特に拡散先行の活用は、自律運転における新しい視点合成の可能性を示唆している。しかし、これらの手法はフレームを独立に、あるいはビュー・バイ・ビューで処理することが多く、時空間の相乗効果が欠如している。これにより、カメラ間の空間的不整合と、シーケンス内の時間的ドリフトが生じる。本稿では,シーンの時空間コヒーレンスを保証する新しい多視点復元フレームワークであるDriveFixを提案する。本手法では,時間的依存関係とカメラ間空間整合性の両方を明示的にモデル化するために,特別なブロックを持つインターリーブ拡散変圧器アーキテクチャを用いる。 DriveFixは、過去の文脈で生成を条件付け、幾何対応のトレーニング損失を統合することで、復元されたビューは統一された3D幾何に従うように強制する。これにより、高忠実度テクスチャの一貫性のある伝播が可能になり、アーティファクトを大幅に削減できる。 Waymo、nuScenes、PandaSetのデータセットに対する大規模な評価は、DriveFixが再構築と新しいビュー合成の両方において最先端のパフォーマンスを達成し、現実世界のデプロイメントのための堅牢な4Dワールドモデリングへの大きな一歩であることを示している。

関連論文リスト

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文参考訳（メタデータ） (2026-02-24T08:41:40Z)
SymDrive: Realistic and Controllable Driving Simulator via Symmetric Auto-regressive Online Restoration [37.202523124756034]
現在のアプローチは、しばしば大きな角度の新規ビュー合成に干渉し、資産操作中に幾何学的または照明的アーティファクトに悩まされる。高品質なレンダリングとシーン編集が可能な統合拡散ベースのフレームワークであるSymDriveを提案する。我々は,SymDriveが新規視認性向上とリアル3D車両挿入の両面において,光実写性能を実現することを実証した。
論文参考訳（メタデータ） (2025-12-25T10:28:43Z)
DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images [36.562825380568384]
ポーズレス動的シーン再構築のための統合フレームワークである textbf driving Gaussian Grounded Transformer (DGGT) を紹介する。提案手法は,フレームごとの3次元ガウスマップとカメラパラメータを共同で予測し,軽量なダイナミックヘッドでダイナミックスを歪曲する。拡散ベースのレンダリング改善により、運動・補間アーティファクトがさらに減少し、スパース入力下での新規ビュー品質が向上する。
論文参考訳（メタデータ） (2025-12-02T18:29:18Z)
Cross-Temporal 3D Gaussian Splatting for Sparse-View Guided Scene Update [17.581193784542357]
スパースビューからの3Dシーンの更新は、様々な現実世界のアプリケーションに不可欠である。我々は,3Dシーンを効率的に再構築・更新するための新しいフレームワークであるクロステンポラル3Dガウススティング(Cross-Temporal 3DGS)を提案する。実験結果から, 復元品質とデータ効率において, ベースライン法よりも顕著な改善が見られた。
論文参考訳（メタデータ） (2025-11-29T16:00:24Z)
UniSplat: Unified Spatio-Temporal Fusion via 3D Latent Scaffolds for Dynamic Driving Scene Reconstruction [26.278318116942526]
We present UniSplat, a feed-forward framework that learns robust dynamic scene reconstruction through unified latent-temporal fusion。実世界のデータセットの実験では、UniSplatが新しい視点で最先端の合成を実現し、オリジナルカメラのカバレッジ外の視点に対して堅牢で高品質なレンダリングを提供することを示した。
論文参考訳（メタデータ） (2025-11-06T17:49:39Z)
DriveGen3D: Boosting Feed-Forward Driving Scene Generation with Efficient Video Diffusion [62.589889759543446]
DriveGen3Dは、高品質で制御可能な動的3D駆動シーンを生成するための新しいフレームワークである。本研究は,映像の高速化と大規模動的シーン再構築を融合させることにより,この手法のギャップを埋めるものである。
論文参考訳（メタデータ） (2025-10-17T03:00:08Z)
4D Driving Scene Generation With Stereo Forcing [62.47705572424127]
現在の生成モデルは、時間外挿と空間的新規ビュー合成(NVS)をシーンごとの最適化なしで同時にサポートする動的4D駆動シーンの合成に苦慮している。 PhiGenesisは、幾何学的・時間的整合性を持った映像生成技術を拡張する4次元シーン生成のための統合フレームワークである。
論文参考訳（メタデータ） (2025-09-24T15:37:17Z)
Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。 Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文参考訳（メタデータ） (2024-12-09T18:58:03Z)
SCFusion: Real-time Incremental Scene Reconstruction with Semantic Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文参考訳（メタデータ） (2020-10-26T15:31:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。