論文の概要: DriveMRP: Enhancing Vision-Language Models with Synthetic Motion Data for Motion Risk Prediction
- arxiv url: http://arxiv.org/abs/2507.02948v2
- Date: Wed, 09 Jul 2025 06:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.310673
- Title: DriveMRP: Enhancing Vision-Language Models with Synthetic Motion Data for Motion Risk Prediction
- Title(参考訳): DriveMRP: モーションリスク予測のための合成モーションデータを用いたビジョンランゲージモデルの構築
- Authors: Zhiyi Hou, Enhui Ma, Fang Li, Zhiyi Lai, Kalok Ho, Zhanqian Wu, Lijun Zhou, Long Chen, Chitian Sun, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Kaicheng Yu,
- Abstract要約: 本研究では,エゴ車,他の車両,環境の3つの側面からリスクをモデル化するために,バードアイビュー(BEV)に基づくモーションシミュレーション手法を提案する。
これにより、ビジョン・ランゲージ・モデルに適したプラグイン・アンド・プレイ高リスクモーションデータを合成できる。
我々は、HDMRP-Agentという、VLMに依存しないモーションリスク推定フレームワークを設計する。
- 参考スコア(独自算出の注目度): 14.010956081539476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving has seen significant progress, driven by extensive real-world data. However, in long-tail scenarios, accurately predicting the safety of the ego vehicle's future motion remains a major challenge due to uncertainties in dynamic environments and limitations in data coverage. In this work, we aim to explore whether it is possible to enhance the motion risk prediction capabilities of Vision-Language Models (VLM) by synthesizing high-risk motion data. Specifically, we introduce a Bird's-Eye View (BEV) based motion simulation method to model risks from three aspects: the ego-vehicle, other vehicles, and the environment. This allows us to synthesize plug-and-play, high-risk motion data suitable for VLM training, which we call DriveMRP-10K. Furthermore, we design a VLM-agnostic motion risk estimation framework, named DriveMRP-Agent. This framework incorporates a novel information injection strategy for global context, ego-vehicle perspective, and trajectory projection, enabling VLMs to effectively reason about the spatial relationships between motion waypoints and the environment. Extensive experiments demonstrate that by fine-tuning with DriveMRP-10K, our DriveMRP-Agent framework can significantly improve the motion risk prediction performance of multiple VLM baselines, with the accident recognition accuracy soaring from 27.13% to 88.03%. Moreover, when tested via zero-shot evaluation on an in-house real-world high-risk motion dataset, DriveMRP-Agent achieves a significant performance leap, boosting the accuracy from base_model's 29.42% to 68.50%, which showcases the strong generalization capabilities of our method in real-world scenarios.
- Abstract(参考訳): 大規模な実世界のデータによって、自律運転は大きな進歩を遂げた。
しかしながら、ロングテールのシナリオでは、エゴの将来の動きの安全性を正確に予測することは、動的環境の不確実性やデータカバレッジの制限のために依然として大きな課題である。
本研究では,高リスクモーションデータを合成することにより,視覚言語モデル(VLM)の動作リスク予測能力を向上できるかどうかを検討する。
具体的には、Ego-vehicle、他の車両、環境の3つの側面からリスクをモデル化するために、Bird's-Eye View(BEV)に基づくモーションシミュレーション手法を提案する。
これにより、HDMRP-10Kと呼ばれるVLMトレーニングに適した、プラグアンドプレイでハイリスクなモーションデータを合成することができる。
さらに,DriveMRP-Agentという,VLMに依存しない動作リスク推定フレームワークを設計する。
このフレームワークは、グローバルなコンテキスト、エゴ・車両の視点、軌道投影のための新しい情報注入戦略を取り入れており、VLMはモーション・ウェイポイントと環境の間の空間的関係を効果的に推論することができる。
DriveMRP-10Kを微調整することにより,複数のVLMベースラインの動作リスク予測性能が大幅に向上し,事故認識精度が27.13%から88.03%に向上することを示した。
さらに、社内の高リスクモーションデータセットのゼロショット評価によるテストでは、DriveMRP-Agentが大幅な性能向上を実現し、base_modelの29.42%から68.50%まで精度が向上した。
関連論文リスト
- GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control [50.67481583744243]
実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。
車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
動作精度と空間認識の両面で既存のモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-28T14:46:51Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation [7.362380225654904]
INSIGHTは、危険検出とエッジケース評価を強化するために設計された階層型視覚言語モデル(VLM)フレームワークである。
本手法は,マルチモーダルデータ融合を用いて意味表現と視覚表現を統合し,運転シナリオの正確な解釈を可能にする。
BDD100Kデータセットの実験結果は、既存のモデルよりもハザード予測の正確性と正確性を大幅に改善したことを示している。
論文 参考訳(メタデータ) (2025-02-01T01:43:53Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - I Know You Can't See Me: Dynamic Occlusion-Aware Safety Validation of
Strategic Planners for Autonomous Vehicles Using Hypergames [12.244501203346566]
我々は,状況リスクを評価するための,新しいマルチエージェント動的閉塞リスク尺度を開発した。
AVにおける戦略的プランナーの安全性を評価するための,ホワイトボックス,シナリオベース,アクセラレーション型安全検証フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-20T19:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。