Fugu-MT 論文翻訳(概要): ReasonBreak: Probing Vulnerabilities in Reasoning-Enabled Vision-Language-Action Models for Autonomous Driving

論文の概要: ReasonBreak: Probing Vulnerabilities in Reasoning-Enabled Vision-Language-Action Models for Autonomous Driving

arxiv url: http://arxiv.org/abs/2605.29114v1
Date: Wed, 27 May 2026 21:21:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 00:00:30.932456
Title: ReasonBreak: Probing Vulnerabilities in Reasoning-Enabled Vision-Language-Action Models for Autonomous Driving
Title（参考訳）: ReasonBreak: 自律運転のための推論可能ビジョンランゲージ・アクションモデルにおける脆弱性の探索
Authors: Mohammadreza Teymoorianfard, Jean-Philippe Monteuuis, Jonathan Petit, Amir Houmansadr,
Abstract要約: 統合推論を用いたビジョン・ランゲージ・アクション(VLA)モデルは、エンドツーエンドの自動運転のために提案されている。これらのモデルが現実的な入力摂動に対して非常に脆弱であることを示し、推論において最大89%の攻撃成功率(ASR)を達成した。本稿では,推論のセマンティックな側面と構造的側面を,安全中心の尺度とともに把握する推論認識評価フレームワークを提案する。
参考スコア（独自算出の注目度）: 16.626967606526872
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models with integrated reasoning have been proposed for end-to-end autonomous driving, assuming a tight coupling between reasoning and trajectory generation. However, the robustness of such systems under realistic input perturbations remains largely unexplored. We show that these models are highly vulnerable to realistic input perturbations, achieving up to 89% attack success rate (ASR) on reasoning and up to 72% on trajectory manipulation in closed-loop simulation, leading to increased collision rates and degraded safety metrics. Using NVIDIA's recent Alpamayo models as representative industry-developed VLAs, we conduct the first systematic black-box study of reasoning-enabled VLA models under realistic textual input corruptions, evaluating their impact on reasoning and driving behavior. We introduce a reasoning-aware evaluation framework capturing both semantic and structural aspects of reasoning, along with safety-centric measures. We also introduce a benchmark for evaluating attacks and defenses on reasoning-trajectory interactions in autonomous driving. Our results highlight the need for rigorous evaluation and improved defenses to ensure the safety of reasoning-enabled VLA systems in autonomous driving.
Abstract（参考訳）: 統合推論を用いたVLAモデルは、推論と軌道生成の密結合を前提として、エンドツーエンドの自律運転に提案されている。しかし、現実的な入力摂動下でのそのようなシステムの堅牢性はほとんど未解明のままである。本研究では,これらのモデルが現実的な入力摂動に対して非常に脆弱であることが示され,最大89%の攻撃成功率 (ASR) が,閉ループシミュレーションにおける軌道操作において最大72%の精度で達成され,衝突速度が増加し,安全性の指標が低下することが示唆された。 NVIDIAの最近のAlpamayoモデルを代表的産業開発VLAとして使用し、現実的なテキスト入力の破損の下で推論可能なVLAモデルを体系的にブラックボックスで研究し、推論と運転行動への影響を評価する。本稿では,推論のセマンティックな側面と構造的側面を,安全中心の尺度とともに把握する推論認識評価フレームワークを提案する。また、自律運転における推論・軌道相互作用に対する攻撃と防御を評価するためのベンチマークも導入した。本研究は、自律運転における推論可能なVLAシステムの安全性を確保するために、厳格な評価と防御の改善の必要性を強調した。

関連論文リスト

Bench2Drive-Robust: Benchmarking Closed-Loop Autonomous Driving under Deployment Perturbations [122.22391796628408]
Bench2Drive-Robustは、クローズドループのエンドツーエンド自動運転のための最初のデバイス中心の堅牢性ベンチマークである。我々は,カメラストリーム障害,エゴ状態推定誤差,計算による制御遅延という3つの主要な原因から生じる展開指向の摂動を系統的に評価した。以上の結果から,これらの展開に伴う摂動は閉ループ駆動性能を著しく低下させる可能性が示唆された。
論文参考訳（メタデータ） (2026-05-18T08:45:24Z)
C-CoT: Counterfactual Chain-of-Thought with Vision-Language Models for Safe Autonomous Driving [5.963051368087439]
本稿では,運転決定を5段階に分解する反ファクト・チェーン・オブ・シント(C-CoT)フレームワークを提案する。本稿では, 代替アクションの組み合わせによる潜在的影響を明確に評価するために, メタアクション評価ツリーを構築した。この自己回帰推論は、行動選択と安全結果の因果関係を確立し、長い尾とアウト・オブ・ディストリビューションのシナリオにおける堅牢性を改善する。
論文参考訳（メタデータ） (2026-05-11T15:45:00Z)
CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving [3.5279672254773353]
CARE Driveは、自動運転に適用された視覚言語モデルにおける理由応答性を評価するためのフレームワークである。それは、制御された文脈変動の下でのベースラインと理由強化モデル決定を比較し、人間の理由が決定行動に因果的に影響を及ぼすかどうかを評価する。結果は、人間の明確な理由がモデル決定に大きな影響を与え、専門家の推奨行動との整合性が向上することを示している。
論文参考訳（メタデータ） (2026-02-17T15:13:36Z)
Counterfactual VLA: Self-Reflective Vision-Language-Action Model with Adaptive Reasoning [71.19675094463834]
この作業では、モデルが実行前に計画されたアクションを推論し、修正することを可能にする、自己修正型のVLAフレームワークである、Counterfactual VLAを導入している。 CF-VLAはまず、駆動意図を要約した時間分割メタアクションを生成し、その後、メタアクションと視覚コンテキストの両方で条件付けられた反実的推論を実行する。大規模運転データセットの実験では、CF-VLAは軌道精度を最大17.6%向上し、安全基準を20.5%向上し、適応的思考を示す。
論文参考訳（メタデータ） (2025-12-30T19:04:17Z)
dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。 nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文参考訳（メタデータ） (2025-12-04T05:05:41Z)
AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models [75.214287449744]
我々は,Impartial World Modelを中心に構築されたポストトレーニング政策改善のためのフレームワークを紹介する。私たちの主な貢献は、このモデルに危険について正直であることを教えることです。大規模な実験を通じて、我々のモデルは失敗を予測する上で、ベースラインを著しく上回っていることを実証する。
論文参考訳（メタデータ） (2025-11-25T13:57:24Z)
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文参考訳（メタデータ） (2025-06-16T17:58:50Z)
Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文参考訳（メタデータ） (2025-05-09T20:28:17Z)
Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文参考訳（メタデータ） (2025-01-23T11:10:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。