論文の概要: DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.19692v1
- Date: Mon, 26 May 2025 08:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.293159
- Title: DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving
- Title(参考訳): DriveCamSim: 自動運転のための明示的なカメラモデリングによる一般化可能なカメラシミュレーション
- Authors: Wenchao Sun, Xuewu Lin, Keyu Chen, Zixiang Pei, Yining Shi, Chuang Zhang, Sifa Zheng,
- Abstract要約: 一般化可能なカメラシミュレーションフレームワークDriveCamSimを提案する。
私たちの中心となるイノベーションは、提案されているExplicit Camera Modelingメカニズムにあります。
制御可能な生成のために、既存の条件エンコーディングおよびインジェクションパイプラインに固有の情報損失の問題を同定する。
- 参考スコア(独自算出の注目度): 9.882070476776274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera sensor simulation serves as a critical role for autonomous driving (AD), e.g. evaluating vision-based AD algorithms. While existing approaches have leveraged generative models for controllable image/video generation, they remain constrained to generating multi-view video sequences with fixed camera viewpoints and video frequency, significantly limiting their downstream applications. To address this, we present a generalizable camera simulation framework DriveCamSim, whose core innovation lies in the proposed Explicit Camera Modeling (ECM) mechanism. Instead of implicit interaction through vanilla attention, ECM establishes explicit pixel-wise correspondences across multi-view and multi-frame dimensions, decoupling the model from overfitting to the specific camera configurations (intrinsic/extrinsic parameters, number of views) and temporal sampling rates presented in the training data. For controllable generation, we identify the issue of information loss inherent in existing conditional encoding and injection pipelines, proposing an information-preserving control mechanism. This control mechanism not only improves conditional controllability, but also can be extended to be identity-aware to enhance temporal consistency in foreground object rendering. With above designs, our model demonstrates superior performance in both visual quality and controllability, as well as generalization capability across spatial-level (camera parameters variations) and temporal-level (video frame rate variations), enabling flexible user-customizable camera simulation tailored to diverse application scenarios. Code will be avaliable at https://github.com/swc-17/DriveCamSim for facilitating future research.
- Abstract(参考訳): カメラセンサーシミュレーションは、視覚に基づくADアルゴリズムの評価など、自律運転(AD)において重要な役割を果たす。
既存のアプローチでは、生成モデルを制御可能な画像/ビデオ生成に活用しているが、固定されたカメラ視点とビデオ周波数を持つマルチビュービデオシーケンスの生成に制約が残っており、ダウンストリームのアプリケーションを大幅に制限している。
そこで本稿では,提案するECM(Explicit Camera Modeling)メカニズムに中心となるイノベーションを生かした,汎用カメラシミュレーションフレームワークDriveCamSimを提案する。
バニラの注意による暗黙的な相互作用の代わりに、ECMは、マルチビューとマルチフレームの次元にまたがる明示的なピクセルワイド対応を確立し、モデルをオーバーフィットから特定のカメラ構成(内在的・外在的パラメータ、ビュー数)とトレーニングデータに提示される時間的サンプリングレートに分離する。
制御可能な生成のために、既存の条件エンコーディングとインジェクションパイプラインに固有の情報損失の問題を特定し、情報保存制御機構を提案する。
この制御機構は条件制御性を向上するだけでなく、前景オブジェクトのレンダリングにおける時間的一貫性を高めるためにアイデンティティを意識するように拡張することもできる。
上述の設計により、視覚的品質と制御性の両方において優れた性能を示し、また、空間レベル(カメラパラメータの変動)と時間レベル(ビデオフレームレートの変動)をまたいだ一般化能力を示し、多様なアプリケーションシナリオに合わせたフレキシブルなユーザカスタマイズ可能なカメラシミュレーションを実現する。
将来の研究を容易にするため、コードはhttps://github.com/swc-17/DriveCamSimで検証可能である。
関連論文リスト
- Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。
さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - CPA: Camera-pose-awareness Diffusion Transformer for Video Generation [15.512186399114999]
CPAはテキスト・ビデオ生成のアプローチであり、テキスト・ビジュアル・空間的条件を統合している。
トラジェクトリの整合性とオブジェクトの整合性において最適な性能を保ちながら、長いビデオ生成のためのLDM法よりも優れる。
論文 参考訳(メタデータ) (2024-12-02T12:10:00Z) - CamI2V: Camera-Controlled Image-to-Video Diffusion Model [11.762824216082508]
統合カメラポーズは、ビデオ拡散モデルにおけるユーザフレンドリーで物理インフォームド条件であり、正確なカメラ制御を可能にする。
重要な課題の1つは、幾何学的整合性とカメラ制御性を高めるために、ノイズの多いクロスフレーム相互作用を効果的にモデル化することである。
我々は,条件の品質と不確実性を低減し,ノイズのあるクロスフレーム特徴をノイズのある状態の形で解釈する能力とを革新的に関連付ける。
論文 参考訳(メタデータ) (2024-10-21T12:36:27Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Monitoring and Adapting the Physical State of a Camera for Autonomous
Vehicles [10.490646039938252]
本稿では,データおよび物理モデルに基づくカメラの汎用的・タスク指向型自己維持フレームワークを提案する。
このフレームワークを現実世界の地上車両に実装し、カメラが粗悪な状況に対応するためにパラメータを調整できることを実証する。
われわれのフレームワークは、カメラの健康状態を監視し維持するための実用的なソリューションを提供するだけでなく、より高度な問題に対処するための拡張の基盤としても機能する。
論文 参考訳(メタデータ) (2021-12-10T11:14:44Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。