論文の概要: VILTA: A VLM-in-the-Loop Adversary for Enhancing Driving Policy Robustness
- arxiv url: http://arxiv.org/abs/2601.12672v1
- Date: Mon, 19 Jan 2026 02:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.736347
- Title: VILTA: A VLM-in-the-Loop Adversary for Enhancing Driving Policy Robustness
- Title(参考訳): VILTA(VLM-in-the-Loop Adversary for Enhancing Driving Policy Robustness)
- Authors: Qimao Chen, Fang Li, Shaoqing Xu, Zhiyi Lai, Zixun Xie, Yuechen Luo, Shengyin Jiang, Hanbing Li, Long Chen, Bing Wang, Yi Zhang, Zhi-Xin Yang,
- Abstract要約: 本稿では、自律運転(AD)エージェントのクローズドループトレーニングにビジョン言語モデル(VLM)を統合するフレームワークであるVILTAを紹介する。
従来の作業とは異なり、VILTAは動的駆動環境を理解することでトレーニングループに積極的に参加する。
提案手法がADポリシーの安全性と堅牢性を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 16.269781291801667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safe deployment of autonomous driving (AD) systems is fundamentally hindered by the long-tail problem, where rare yet critical driving scenarios are severely underrepresented in real-world data. Existing solutions including safety-critical scenario generation and closed-loop learning often rely on rule-based heuristics, resampling methods and generative models learned from offline datasets, limiting their ability to produce diverse and novel challenges. While recent works leverage Vision Language Models (VLMs) to produce scene descriptions that guide a separate, downstream model in generating hazardous trajectories for agents, such two-stage framework constrains the generative potential of VLMs, as the diversity of the final trajectories is ultimately limited by the generalization ceiling of the downstream algorithm. To overcome these limitations, we introduce VILTA (VLM-In-the-Loop Trajectory Adversary), a novel framework that integrates a VLM into the closed-loop training of AD agents. Unlike prior works, VILTA actively participates in the training loop by comprehending the dynamic driving environment and strategically generating challenging scenarios through direct, fine-grained editing of surrounding agents' future trajectories. This direct-editing approach fully leverages the VLM's powerful generalization capabilities to create a diverse curriculum of plausible yet challenging scenarios that extend beyond the scope of traditional methods. We demonstrate that our approach substantially enhances the safety and robustness of the resulting AD policy, particularly in its ability to navigate critical long-tail events.
- Abstract(参考訳): 自律運転(AD)システムの安全な配置は、現実のデータでは稀だが重要な運転シナリオが著しく不足しているロングテール問題によって、基本的に妨げられている。
安全クリティカルなシナリオ生成やクローズドループ学習といった既存のソリューションは、ルールベースのヒューリスティックや、オフラインデータセットから学んだメソッドの再サンプリング、生成モデルに依存しており、多様で斬新な課題を生み出す能力を制限する。
近年の研究では、視覚言語モデル(VLM)を利用して、エージェントの有害な軌跡を生成するために、個別の下流モデルを導くシーン記述を生成するが、このような2段階のフレームワークは、最終的な軌跡の多様性が最終的に下流アルゴリズムの一般化天井によって制限されるため、VLMの生成可能性を制限する。
これらの制限を克服するため,ADエージェントの閉ループトレーニングにVLMを統合する新しいフレームワークであるVILTA(VLM-In-the-Loop Trajectory Adversary)を導入する。
以前の作業とは異なり、VILTAはダイナミックな運転環境を理解し、周囲のエージェントの将来の軌跡を直接的かつきめ細かい編集することで、挑戦的なシナリオを戦略的に生成することで、トレーニングループに積極的に参加する。
この直接編集アプローチは、VLMの強力な一般化能力を完全に活用して、従来のメソッドの範囲を超えて拡張される、多種多様なプラウチブルで挑戦的なシナリオのカリキュラムを作成する。
提案手法はADポリシーの安全性と堅牢性を大幅に向上させ,特に重要なロングテールイベントをナビゲートできることを実証する。
関連論文リスト
- dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - Enhancing End-to-End Autonomous Driving with Risk Semantic Distillaion from VLM [14.016225216093643]
リスクセマンティック蒸留(RSD)は、視覚言語モデル(VLM)を利用して、エンド・トゥ・エンド(E2E)自動運転バックボーンのトレーニングを強化する新しいフレームワークである。
具体的には、Vision-Language Models から Bird's-Eye-View (BEV) 機能への因果リスク推定を蒸留するプラグインモジュールである RiskHead を紹介する。
Bench2Driveベンチマーク実験では,複雑な運転条件と予測不可能な運転条件の管理におけるRSDの有効性を示した。
論文 参考訳(メタデータ) (2025-11-18T13:46:18Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models [1.6612510324510592]
CurricuVLMは、自律運転エージェントのためのパーソナライズされたカリキュラム学習を可能にする新しいフレームワークである。
我々のアプローチでは、エージェントの動作を分析し、パフォーマンスの弱点を特定し、動的に調整されたトレーニングシナリオを生成するために、視覚言語モデル(VLM)を利用する。
CurricuVLMは、通常のシナリオと安全クリティカルなシナリオの両方において、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-21T00:42:40Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。