論文の概要: C-CoT: Counterfactual Chain-of-Thought with Vision-Language Models for Safe Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.10744v1
- Date: Mon, 11 May 2026 15:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.951574
- Title: C-CoT: Counterfactual Chain-of-Thought with Vision-Language Models for Safe Autonomous Driving
- Title(参考訳): C-CoT:安全な自律運転のための視覚言語モデルと非現実的連鎖
- Authors: Kefei Tian, Yuansheng Lian, Kai Yang, Xiangdong Chen, Shen Li,
- Abstract要約: 本稿では,運転決定を5段階に分解する反ファクト・チェーン・オブ・シント(C-CoT)フレームワークを提案する。
本稿では, 代替アクションの組み合わせによる潜在的影響を明確に評価するために, メタアクション評価ツリーを構築した。
この自己回帰推論は、行動選択と安全結果の因果関係を確立し、長い尾とアウト・オブ・ディストリビューションのシナリオにおける堅牢性を改善する。
- 参考スコア(独自算出の注目度): 5.963051368087439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-critical planning in complex environments, particularly at urban intersections, remains a fundamental challenge for autonomous driving. Existing methods, whether rule-based or data-driven, frequently struggle to capture complex scene semantics, infer potential risks, and make reliable decisions in rare, high-risk situations. While vision-language models (VLMs) offer promising approaches for safe decision-making in these environments, most current approaches lack reflective and causal reasoning, thereby limiting their overall robustness. To address this, we propose a counterfactual chain-of-thought (C-CoT) framework that leverages VLMs to decompose driving decisions into five sequential stages: scene description, critical object identification, risk prediction, counterfactual risk reasoning, and final action planning. Within the counterfactual reasoning stage, we introduce a structured meta-action evaluation tree to explicitly assess the potential consequences of alternative action combinations. This self-reflective reasoning establishes causal links between action choices and safety outcomes, improving robustness in long-tail and out-of-distribution scenarios. To validate our approach, we construct the DeepAccident-CCoT dataset based on the DeepAccident benchmark and fine-tune a Qwen2.5-VL (7B) model using low-rank adaptation. Our model achieves a risk prediction recall of 81.9%, reduces the collision rate to 3.52%, and lowers L2 error to 1.98 m. Ablation studies further confirm the critical role of counterfactual reasoning and the meta-action evaluation tree in enhancing safety and interpretability.
- Abstract(参考訳): 複雑な環境、特に都市交差点における安全クリティカルな計画は、自動運転の基本的な課題である。
ルールベースであれ、データ駆動であれ、既存の手法では、複雑なシーンセマンティクスを捉えたり、潜在的なリスクを推測したり、稀で高リスクな状況で信頼できる意思決定を行うのに苦労することが多い。
視覚言語モデル(VLM)は、これらの環境において安全な意思決定のための有望なアプローチを提供するが、現在のほとんどのアプローチは反射的および因果推論を欠いているため、全体的な堅牢性を制限している。
そこで本研究では,VLMを利用して意思決定をシーン記述,クリティカルオブジェクト識別,リスク予測,ファクトファクトリスク推論,最終行動計画の5段階に分解する,ファクトファクトファクトチェーン(C-CoT)フレームワークを提案する。
本稿では, 代替アクションの組み合わせによる潜在的影響を明確に評価するために, メタアクション評価ツリーを構築した。
この自己回帰推論は、行動選択と安全結果の因果関係を確立し、長い尾とアウト・オブ・ディストリビューションのシナリオにおける堅牢性を改善する。
提案手法の有効性を検証するために,DeepAccidentベンチマークに基づいてDeepAccident-CCoTデータセットを構築し,低ランク適応を用いたQwen2.5-VL (7B)モデルを微調整する。
我々のモデルは81.9%のリスク予測リコールを達成し、衝突速度を3.52%に下げ、L2誤差を1.98mに下げる。
アブレーション研究は、安全性と解釈可能性を高める上で、反実的推論とメタアクション評価ツリーの重要性をさらに確認する。
関連論文リスト
- Dual-Stage LLM Framework for Scenario-Centric Semantic Interpretation in Driving Assistance [3.7098231493739764]
本稿では,都市交通におけるリスク推論の再現可能な監査のためのシナリオ中心の枠組みを提案する。
LLMに基づく推論を安全に整合した運転支援システムに統合する場合、シナリオ中心の監査と明示的なあいまいさ管理の重要性を強調している。
論文 参考訳(メタデータ) (2026-03-29T06:20:08Z) - OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - Multimodal Belief-Space Covariance Steering with Active Probing and Influence for Interactive Driving [14.159772216001954]
我々は、粗い離散意図と微妙な動きモードにまたがって人間の行動を構造化する階層的信念モデルを導入する。
人間の予測におけるマルチモーダルなあいまいさが安全を損なう可能性があることを識別するアクティブな探索戦略を開発する。
最後に、Conditional Value-at-Riskに基づく実行時リスク評価レイヤは、すべての調査アクションが影響の間、人間のリスク許容範囲内に留まることを保証します。
論文 参考訳(メタデータ) (2026-02-16T08:04:16Z) - SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - AURA: Affordance-Understanding and Risk-aware Alignment Technique for Large Language Models [6.059681491089391]
AURAは論理的一貫性と安全性を認識した総合的、段階的な評価を提供する。
本フレームワークは, 内省的自己批判, きめ細かいPRM評価, 適応型安全認識復号をシームレスに結合する。
この研究は、アライメントに敏感なアプリケーションのための新しいベンチマークを設定することで、より安全で責任があり、コンテキストに敏感なAIに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-08-08T08:43:24Z) - RiskNet: Interaction-Aware Risk Forecasting for Autonomous Driving in Long-Tail Scenarios [6.024186631622774]
RiskNetは自動運転車のリスク予測フレームワークである。
決定論的リスクモデリングと確率論的行動予測を統合し、包括的リスク評価を行う。
リアルタイムでシナリオ適応型のリスク予測をサポートし、不確実な運転環境全体にわたって強力な一般化を示す。
論文 参考訳(メタデータ) (2025-04-22T02:36:54Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。