論文の概要: DriveFlow: Rectified Flow Adaptation for Robust 3D Object Detection in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.18713v1
- Date: Mon, 24 Nov 2025 03:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.987871
- Title: DriveFlow: Rectified Flow Adaptation for Robust 3D Object Detection in Autonomous Driving
- Title(参考訳): DriveFlow: 自動走行におけるロバスト3次元物体検出のための整流流適応
- Authors: Hongbin Lin, Yiming Yang, Chaoda Zheng, Yifan Zhang, Shuaicheng Niu, Zilu Guo, Yafeng Li, Gui Gui, Shuguang Cui, Zhen Li,
- Abstract要約: DriveFlowは、自律運転におけるデータ強化をトレーニングするためのRectified Flow Adaptation法である。
これは、精密な3次元オブジェクト形状を維持するために、フォアグラウンドの高周波アライメント損失を組み込む。
また、バックグラウンドをデュアル周波数で最適化し、編集の柔軟性とセマンティック一貫性のバランスをとる。
- 参考スコア(独自算出の注目度): 85.14946767994932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In autonomous driving, vision-centric 3D object detection recognizes and localizes 3D objects from RGB images. However, due to high annotation costs and diverse outdoor scenes, training data often fails to cover all possible test scenarios, known as the out-of-distribution (OOD) issue. Training-free image editing offers a promising solution for improving model robustness by training data enhancement without any modifications to pre-trained diffusion models. Nevertheless, inversion-based methods often suffer from limited effectiveness and inherent inaccuracies, while recent rectified-flow-based approaches struggle to preserve objects with accurate 3D geometry. In this paper, we propose DriveFlow, a Rectified Flow Adaptation method for training data enhancement in autonomous driving based on pre-trained Text-to-Image flow models. Based on frequency decomposition, DriveFlow introduces two strategies to adapt noise-free editing paths derived from text-conditioned velocities. 1) High-Frequency Foreground Preservation: DriveFlow incorporates a high-frequency alignment loss for foreground to maintain precise 3D object geometry. 2) Dual-Frequency Background Optimization: DriveFlow also conducts dual-frequency optimization for background, balancing editing flexibility and semantic consistency. Comprehensive experiments validate the effectiveness and efficiency of DriveFlow, demonstrating comprehensive performance improvements on all categories across OOD scenarios. Code is available at https://github.com/Hongbin98/DriveFlow.
- Abstract(参考訳): 自律走行では、視覚中心の3Dオブジェクト検出がRGB画像から3Dオブジェクトを認識し、ローカライズする。
しかし、高いアノテーションコストと多様な屋外シーンのため、トレーニングデータは、アウト・オブ・ディストリビューション(OOD)問題として知られるすべてのテストシナリオをカバーすることができないことが多い。
トレーニング不要な画像編集は、事前トレーニングされた拡散モデルを変更することなく、トレーニングデータ拡張によってモデルロバスト性を改善するための有望なソリューションを提供する。
それにもかかわらず、インバージョンベースの手法は、しばしば限られた有効性と固有の不正確さに悩まされる一方、最近の修正フローベースのアプローチは、正確な3次元幾何でオブジェクトを保存するのに苦労している。
本稿では,事前学習されたテキスト・画像・フローモデルに基づく自律運転におけるデータ強化を学習するための,整流型フロー適応法であるDriveFlowを提案する。
周波数分解に基づいて、DriveFlowは、テキスト条件付速度から派生したノイズフリーな編集パスを適応するための2つの戦略を導入する。
1) 高周波フォアグラウンド保存: DriveFlowは、フォアグラウンドの高精度な3次元オブジェクト形状を維持するために、高周波アライメントロスを組み込む。
2) デュアル周波数背景最適化: DriveFlowはまた、バックグラウンドに対してデュアル周波数最適化を行い、編集の柔軟性とセマンティック一貫性のバランスをとる。
総合的な実験はDriveFlowの有効性と効率を検証し、OODシナリオ全体にわたるすべてのカテゴリにおける包括的なパフォーマンス改善を実証する。
コードはhttps://github.com/Hongbin98/DriveFlowで入手できる。
関連論文リスト
- Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training [27.251232052868033]
Trajectory-Guided Image-to-Video (I2V) 生成は、ユーザが指定した動画を合成することを目的としている。
Zo3Tは軌道制御されたI2V生成における3次元リアリズムと運動精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-08T14:21:45Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation [49.32104127246474]
DriveGENは、トレーニング不要のテキストから画像への拡散生成である。
様々なアウト・オブ・ディストリビューション世代にまたがる正確な3D形状のオブジェクトを一貫して保存する。
論文 参考訳(メタデータ) (2025-03-14T06:35:38Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - DreamFlow: High-Quality Text-to-3D Generation by Approximating Probability Flow [72.9209434105892]
本稿では,T2I拡散を利用したテキスト・ツー・3Dの最適化手法を提案する。
提案手法を応用して,実用的な3段階間粗大なテキスト・ツー・3D最適化フレームワークであるDreamFlowを設計する。
論文 参考訳(メタデータ) (2024-03-22T05:38:15Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - PillarFlow: End-to-end Birds-eye-view Flow Estimation for Autonomous
Driving [42.8479177012748]
鳥眼ビュー(BeV)におけるLIDARに基づくフロー推定のためのエンドツーエンドディープラーニングフレームワークを提案する。
本手法は連続点雲対を入力とし,各セルの動的状態を記述する2次元BeVフローグリッドを生成する。
実験の結果, 提案手法は2次元BeV流れを正確に推定するだけでなく, 動的物体と静的物体の両方の追尾性能も向上することがわかった。
論文 参考訳(メタデータ) (2020-08-03T20:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。