論文の概要: Ethics-Aware Safe Reinforcement Learning for Rare-Event Risk Control in Interactive Urban Driving
- arxiv url: http://arxiv.org/abs/2508.14926v3
- Date: Fri, 07 Nov 2025 17:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 18:58:55.543724
- Title: Ethics-Aware Safe Reinforcement Learning for Rare-Event Risk Control in Interactive Urban Driving
- Title(参考訳): 対話型都市運転における希少事象リスク制御のための倫理的安全強化学習
- Authors: Dianzhao Li, Ostap Okhrin,
- Abstract要約: 倫理に配慮したコスト信号で標準駆動目標を増強する階層型セーフ強化学習フレームワークを提案する。
衝突確率と有害度を組み合わせた複合的倫理的リスクコストを用いて安全なRLエージェントを訓練し、高レベルな運動目標を生成する。
動的でリスクに敏感な優先順位付けエクスペリエンスメカニズムは、まれだがクリティカルでリスクの高いイベントからの学習を増幅する。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous vehicles hold great promise for reducing traffic fatalities and improving transportation efficiency, yet their widespread adoption hinges on embedding credible and transparent ethical reasoning into routine and emergency maneuvers, particularly to protect vulnerable road users (VRUs) such as pedestrians and cyclists. Here, we present a hierarchical Safe Reinforcement Learning (Safe RL) framework that augments standard driving objectives with ethics-aware cost signals. At the decision level, a Safe RL agent is trained using a composite ethical risk cost, combining collision probability and harm severity, to generate high-level motion targets. A dynamic, risk-sensitive Prioritized Experience Replay mechanism amplifies learning from rare but critical, high-risk events. At the execution level, polynomial path planning coupled with Proportional-Integral-Derivative (PID) and Stanley controllers translates these targets into smooth, feasible trajectories, ensuring both accuracy and comfort. We train and validate our approach on closed-loop simulation environments derived from large-scale, real-world traffic datasets encompassing diverse vehicles, cyclists, and pedestrians, and demonstrate that it outperforms baseline methods in reducing risk to others while maintaining ego performance and comfort. This work provides a reproducible benchmark for Safe RL with explicitly ethics-aware objectives in human-mixed traffic scenarios. Our results highlight the potential of combining formal control theory and data-driven learning to advance ethically accountable autonomy that explicitly protects those most at risk in urban traffic environments. Across two interactive benchmarks and five random seeds, our policy decreases conflict frequency by 25-45% compared to matched task successes while maintaining comfort metrics within 5%.
- Abstract(参考訳): 自動運転車は交通事故を減らし、交通効率を向上させるという大きな約束を持っているが、その普及は、信頼性と透明な倫理的推論を、特に歩行者やサイクリストのような脆弱な道路利用者(VRU)を保護するために、日常的および緊急行動に組み込むことに繋がる。
ここでは、倫理に配慮したコスト信号で標準駆動目標を増強する階層型セーフ強化学習(Safe RL)フレームワークを提案する。
決定レベルでは、衝突確率と有害度を組み合わせた複合的倫理的リスクコストを用いてセーフRLエージェントを訓練し、高レベルな運動目標を生成する。
動的でリスクに敏感な優先順位付けされた体験再生メカニズムは、まれだがクリティカルでリスクの高いイベントからの学習を増幅する。
実行レベルでは、PID(Proportional-Integral-Derivative)とStanleyコントローラを組み合わせた多項式パスプランニングが、これらのターゲットをスムーズで実現可能な軌道に変換し、正確性と快適性を確保する。
我々は、多様な車両、サイクリスト、歩行者を含む大規模で現実世界の交通データセットから得られたクローズドループシミュレーション環境に対するアプローチを訓練し、検証し、エゴ性能と快適性を維持しつつ、他の人へのリスクを減らすための基準手法よりも優れていることを示した。
この研究はSafe RLの再現可能なベンチマークを提供し、人間と混在する交通シナリオにおける倫理的な目的を明確に認識する。
本研究は, 都市交通環境におけるリスクの高い人を守るために, 形式制御理論とデータ駆動学習を組み合わせることにより, 倫理的に説明可能な自律性を向上する可能性を強調した。
2つのインタラクティブなベンチマークと5つのランダムシードで、我々のポリシーは、一致したタスクの成功と比較して競合頻度を25~45%減少させ、快適なメトリクスを5%以下に維持する。
関連論文リスト
- Toward Safety-First Human-Like Decision Making for Autonomous Vehicles in Time-Varying Traffic Flow [19.366456768621365]
このフレームワークは、他の道路利用者の意図推論のための空間的注意(S-TA)機構、行動規制のための社会的コンプライアンス推定モジュール、Deep Evolutionary Reinforcement Learning(DERL)モデルを統合する。
SF-HLDMフレームワークは、自律運転AIエージェントが決定パラメータを動的に調整し、安全マージンを維持し、文脈的に適切な運転行動に固執することを可能にする。
論文 参考訳(メタデータ) (2025-06-17T13:28:19Z) - VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving [1.9242820889313577]
強化学習(RL)に基づく自律運転政策学習は、限界に直面している。
RLはしばしば複雑な運転コンテキストにおける「安全」の意味の真の意味をつかむのに失敗する。
本稿では,VLM(Vision-Language Model)-as-as-safety-guidanceパラダイムを用いた世界モデルベースの安全なRLフレームワークであるVL-SAFEを提案する。
論文 参考訳(メタデータ) (2025-05-22T08:29:59Z) - RADE: Learning Risk-Adjustable Driving Environment via Multi-Agent Conditional Diffusion [17.46462636610847]
リスク・ドライビング・環境(RADE)は、統計的に現実的でリスク調整可能な交通シーンを生成するシミュレーション・フレームワークである。
RADEはデータから直接リスク条件の行動を学び、コントロール可能なリスクレベルと自然主義的なマルチエージェントインタラクションを保存する。
RADEを実世界のrounDデータセットで検証し、様々なリスクレベルにわたって統計的リアリズムを保存することを示した。
論文 参考訳(メタデータ) (2025-05-06T04:41:20Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models [14.790308656087316]
SafeDriveは、自律運転の安全性と適応性を高めるための、知識とデータ駆動型リスクに敏感な意思決定フレームワークである。
知識駆動型洞察と適応学習機構を統合することにより、不確実な条件下での堅牢な意思決定を保証する。
論文 参考訳(メタデータ) (2024-12-17T16:45:27Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - RACER: Rational Artificial Intelligence Car-following-model Enhanced by Reality [46.909086734963665]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。
従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。
RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文 参考訳(メタデータ) (2023-12-12T06:21:30Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。