論文の概要: DriveDiTFit: Fine-tuning Diffusion Transformers for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2407.15661v1
- Date: Mon, 22 Jul 2024 14:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:40:28.536067
- Title: DriveDiTFit: Fine-tuning Diffusion Transformers for Autonomous Driving
- Title(参考訳): DriveDiTFit: 自動運転のための微調整拡散変換器
- Authors: Jiahang Tu, Wei Ji, Hanbin Zhao, Chao Zhang, Roger Zimmermann, Hui Qian,
- Abstract要約: 自律運転では、データセットは悪天候、照明条件、さまざまな移動物体を含む様々な運転シナリオをカバーすることが期待されている。
DriveDiTFitを提案する。Diffusion Transformer(DiT)を微調整することで、自律運転データを効率的に生成する新しい方法である。
具体的には、DriveDiTFitはギャップ駆動変調技術を用いて、事前訓練されたソースデータと目標駆動データとの相違に応じて、DiT内のいくつかのパラメータを慎重に選択し、効率的に微調整する。
- 参考スコア(独自算出の注目度): 27.92501884414881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, deep models have shown remarkable performance across various visual perception tasks with the demand of high-quality and huge-diversity training datasets. Such datasets are expected to cover various driving scenarios with adverse weather, lighting conditions and diverse moving objects. However, manually collecting these data presents huge challenges and expensive cost. With the rapid development of large generative models, we propose DriveDiTFit, a novel method for efficiently generating autonomous Driving data by Fine-tuning pre-trained Diffusion Transformers (DiTs). Specifically, DriveDiTFit utilizes a gap-driven modulation technique to carefully select and efficiently fine-tune a few parameters in DiTs according to the discrepancy between the pre-trained source data and the target driving data. Additionally, DriveDiTFit develops an effective weather and lighting condition embedding module to ensure diversity in the generated data, which is initialized by a nearest-semantic-similarity initialization approach. Through progressive tuning scheme to refined the process of detail generation in early diffusion process and enlarging the weights corresponding to small objects in training loss, DriveDiTFit ensures high-quality generation of small moving objects in the generated data. Extensive experiments conducted on driving datasets confirm that our method could efficiently produce diverse real driving data. The source codes will be available at https://github.com/TtuHamg/DriveDiTFit.
- Abstract(参考訳): 自律運転では、様々な視覚的知覚タスクにおいて、高品質で膨大な多様性のトレーニングデータセットが要求されるなど、深いモデルが顕著なパフォーマンスを示している。
このようなデータセットは、悪天候、照明条件、さまざまな移動物体を含む様々な運転シナリオをカバーすることが期待されている。
しかし、これらのデータを手動で収集すると、大きな課題とコストが発生する。
本研究では,大規模な生成モデルの迅速な開発とともに,直交型拡散変換器(DiT)による自律運転データを効率的に生成する新しい手法であるDriveDiTFitを提案する。
具体的には、DriveDiTFitはギャップ駆動変調技術を用いて、事前訓練されたソースデータと目標駆動データとの相違に応じて、DiT内のいくつかのパラメータを慎重に選択し、効率的に微調整する。
さらに、DriveDiTFitは、生成したデータの多様性を保証する効果的な気象条件と照明条件の埋め込みモジュールを開発し、最も近いセマンティック・相似初期化アプローチによって初期化される。
DriveDiTFitは、初期拡散過程における詳細生成のプロセスの高度化と、トレーニング損失における小さなオブジェクトに対応する重みの増大を通じて、生成されたデータ中の小さな移動オブジェクトの高品質な生成を保証する。
運転データセットに対する大規模な実験により,本手法が多種多様な実走行データを効率的に生成できることが確認された。
ソースコードはhttps://github.com/TtuHamg/DriveDiTFit.comで入手できる。
関連論文リスト
- GenDDS: Generating Diverse Driving Video Scenarios with Prompt-to-Video Generative Model [6.144680854063938]
GenDDSは、自律運転システムの運転シナリオを生成するための新しいアプローチである。
我々は、実際の運転ビデオを含むKITTIデータセットを使用して、モデルをトレーニングする。
実世界の運転シナリオの複雑さと変動性を密に再現した高品質な運転映像を,我々のモデルで生成できることを実証した。
論文 参考訳(メタデータ) (2024-08-28T15:37:44Z) - PLT-D3: A High-fidelity Dynamic Driving Simulation Dataset for Stereo Depth and Scene Flow [0.0]
本稿では,エンジン5を用いて生成した高忠実度ステレオ深度およびシーンフローグラウンド真理データであるダイナミックウェザードライビングデータセットを紹介する。
特に、このデータセットには、様々な動的気象シナリオを再現する、同期された高解像度ステレオ画像シーケンスが含まれている。
Unreal-D3を用いたいくつかの重要な自動運転タスクのためのベンチマークが確立され、最先端モデルの性能を計測し、向上している。
論文 参考訳(メタデータ) (2024-06-11T19:21:46Z) - SCaRL- A Synthetic Multi-Modal Dataset for Autonomous Driving [0.0]
本稿では、自律運転ソリューションのトレーニングと検証を可能にするために、合成生成された新しいマルチモーダルデータセットであるSCaRLを提案する。
SCaRLはCARLA Simulatorに基づく大規模なデータセットであり、多様な動的シナリオとトラフィック条件のためのデータを提供する。
論文 参考訳(メタデータ) (2024-05-27T10:31:26Z) - SubjectDrive: Scaling Generative Data in Autonomous Driving via Subject Control [59.20038082523832]
我々は、自動走行アプリケーションの改善を継続的に行う方法で、生成データ生産を拡大することが証明された最初のモデルであるSubjectDriveを提案する。
本研究では, 多様なデータを生成するために, 多様な外部データソースを活用可能な, 主観制御機構を備えた新しいモデルを開発する。
論文 参考訳(メタデータ) (2024-03-28T14:07:13Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - A Hybrid Rule-Based and Data-Driven Approach to Driver Modeling through
Particle Filtering [6.9485501711137525]
本稿ではルールベースモデリングとデータ駆動学習を組み合わせた方法論を提案する。
この結果から,我々のハイブリッドルールベースおよびデータ駆動型アプローチに基づくドライバモデルにより,実世界の運転行動を正確に把握できることが示唆された。
論文 参考訳(メタデータ) (2021-08-29T11:07:14Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Deep traffic light detection by overlaying synthetic context on
arbitrary natural images [49.592798832978296]
深部交通光検出器のための人工的な交通関連トレーニングデータを生成する手法を提案する。
このデータは、任意の画像背景の上に偽のトラフィックシーンをブレンドするために、基本的な非現実的なコンピュータグラフィックスを用いて生成される。
また、交通信号データセットの本質的なデータ不均衡問題にも対処し、主に黄色い状態のサンプルの少なさによって引き起こされる。
論文 参考訳(メタデータ) (2020-11-07T19:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。