論文の概要: Seeing Clearly, Forgetting Deeply: Revisiting Fine-Tuned Video Generators for Driving Simulation
- arxiv url: http://arxiv.org/abs/2508.16512v1
- Date: Fri, 22 Aug 2025 16:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.454032
- Title: Seeing Clearly, Forgetting Deeply: Revisiting Fine-Tuned Video Generators for Driving Simulation
- Title(参考訳): 運転シミュレーションのための微調整ビデオジェネレータを再検討
- Authors: Chun-Peng Chang, Chen-Yu Wang, Julian Schmidt, Holger Caesar, Alain Pagani,
- Abstract要約: 既存の微調整ビデオ生成手法が構造化運転データセットに与える影響について検討する。
視覚的忠実度は向上するが,動的要素のモデリングにおける空間的精度は低下する可能性があることを示す。
- 参考スコア(独自算出の注目度): 17.301302433153467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in video generation have substantially improved visual quality and temporal coherence, making these models increasingly appealing for applications such as autonomous driving, particularly in the context of driving simulation and so-called "world models". In this work, we investigate the effects of existing fine-tuning video generation approaches on structured driving datasets and uncover a potential trade-off: although visual fidelity improves, spatial accuracy in modeling dynamic elements may degrade. We attribute this degradation to a shift in the alignment between visual quality and dynamic understanding objectives. In datasets with diverse scene structures within temporal space, where objects or perspective shift in varied ways, these objectives tend to highly correlated. However, the very regular and repetitive nature of driving scenes allows visual quality to improve by modeling dominant scene motion patterns, without necessarily preserving fine-grained dynamic behavior. As a result, fine-tuning encourages the model to prioritize surface-level realism over dynamic accuracy. To further examine this phenomenon, we show that simple continual learning strategies, such as replay from diverse domains, can offer a balanced alternative by preserving spatial accuracy while maintaining strong visual quality.
- Abstract(参考訳): 映像生成の最近の進歩は、視覚的品質と時間的コヒーレンスを大幅に改善し、特に運転シミュレーションやいわゆる「世界モデル」の文脈において、これらのモデルが自律運転のような応用にますますアピールするようになった。
本研究では,既存の微調整映像生成手法が構造化運転データセットに与える影響を調査し,潜在的なトレードオフを明らかにする。視覚的忠実度は向上するが,動的要素のモデル化における空間的精度は低下する可能性がある。
この劣化は、視覚的品質と動的理解の目的との整合性の変化に起因している。
時間空間内の多様なシーン構造を持つデータセットにおいて、対象や視点が様々な方法で変化する場合、これらの目的は高い相関関係を持つ傾向がある。
しかし、運転シーンの非常に規則的で反復的な性質は、微粒な動的挙動を必ずしも保持することなく、支配的なシーンの動きパターンをモデル化することで視覚的品質を向上させることができる。
その結果、微調整により、動的精度よりも表面レベルのリアリズムを優先するモデルが奨励される。
さらに,この現象を解明するために,多様な領域からの再生のような単純な連続学習戦略が,視覚的品質を維持しつつ,空間的精度を保ちつつバランスの取れた代替手段を提供することを示す。
関連論文リスト
- ArmGS: Composite Gaussian Appearance Refinement for Modeling Dynamic Urban Environments [22.371417505012566]
この研究は、自律運転シミュレーションのための動的都市環境のモデリングに焦点を当てている。
我々は,多粒性外観改善を用いた複合駆動ガウススプラッティングを利用するArmGSという新しい手法を提案する。
これは、フレームとカメラの視点のグローバルなシーンの外観の変化をモデル化するだけでなく、背景と物体の局所的なきめ細かい光リアルな変化もモデル化する。
論文 参考訳(メタデータ) (2025-07-05T03:54:40Z) - GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control [50.67481583744243]
実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。
車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
動作精度と空間認識の両面で既存のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-28T14:46:51Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。