論文の概要: Learning Safe Autonomous Driving Policies Using Predictive Safety Representations
- arxiv url: http://arxiv.org/abs/2512.17586v2
- Date: Tue, 23 Dec 2025 15:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 13:10:52.735151
- Title: Learning Safe Autonomous Driving Policies Using Predictive Safety Representations
- Title(参考訳): 予測安全表現を用いた安全運転政策の学習
- Authors: Mahesh Keswani, Raunak Bhattacharyya,
- Abstract要約: 安全強化学習(SafeRL)は、自動運転における重要なパラダイムである。
リスク政策学習のための安全表現(SRPL)フレームワークは、エージェントに将来の違反の予測モデルを設けることでこの問題に対処する。
本稿では,SRPLが現実の自動運転シナリオに拡張するかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe reinforcement learning (SafeRL) is a prominent paradigm for autonomous driving, where agents are required to optimize performance under strict safety requirements. This dual objective creates a fundamental tension, as overly conservative policies limit driving efficiency while aggressive exploration risks safety violations. The Safety Representations for Safer Policy Learning (SRPL) framework addresses this challenge by equipping agents with a predictive model of future constraint violations and has shown promise in controlled environments. This paper investigates whether SRPL extends to real-world autonomous driving scenarios. Systematic experiments on the Waymo Open Motion Dataset (WOMD) and NuPlan demonstrate that SRPL can improve the reward-safety tradeoff, achieving statistically significant improvements in success rate (effect sizes r = 0.65-0.86) and cost reduction (effect sizes r = 0.70-0.83), with p < 0.05 for observed improvements. However, its effectiveness depends on the underlying policy optimizer and the dataset distribution. The results further show that predictive safety representations play a critical role in improving robustness to observation noise. Additionally, in zero-shot cross-dataset evaluation, SRPL-augmented agents demonstrate improved generalization compared to non-SRPL methods. These findings collectively demonstrate the potential of predictive safety representations to strengthen SafeRL for autonomous driving.
- Abstract(参考訳): 安全強化学習(SafeRL)は自律運転において顕著なパラダイムであり、エージェントは厳格な安全要件の下でパフォーマンスを最適化する必要がある。
この二重目的は、過度に保守的な政策が効率を制限し、積極的な調査は安全違反を危険にさらすため、根本的な緊張を生み出す。
リスク政策学習のための安全表現(SRPL)フレームワークは、エージェントに将来の制約違反の予測モデルを設け、制御された環境での約束を示すことで、この問題に対処する。
本稿では,SRPLが現実の自動運転シナリオに拡張するかどうかを検討する。
Waymo Open Motion Dataset (WOMD) と NuPlan の体系的な実験により、SRPL は報酬-安全トレードオフを改善し、成功率 (効果サイズ r = 0.65-0.86) とコスト削減 (効果サイズ r = 0.70-0.83) の統計的に有意な改善を達成できることを示した。
しかし、その効果は、基礎となるポリシーオプティマイザとデータセットの分布に依存する。
さらに, 観測騒音に対するロバスト性向上には, 予測安全表現が重要な役割を担っていることが示唆された。
さらに,ゼロショットクロスデータセット評価では,非SRPL法と比較してSRPL増強剤の一般化が向上した。
これらの知見は、自律運転におけるSafeRLを強化するための予測安全表現の可能性を示すものである。
関連論文リスト
- Controllable risk scenario generation from human crash data for autonomous vehicle testing [13.3074428571403]
制御可能なリスクエージェント生成(CRAG)は、支配的な名目的行動と稀な安全クリティカルな行動のモデリングを統合するために設計されたフレームワークである。
CRAGは、正常およびリスク関連挙動を歪め、限られたクラッシュデータの効率的な利用を可能にする構造付き潜在空間を構築する。
論文 参考訳(メタデータ) (2025-11-27T04:53:18Z) - Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。
RLVRにおける安全特性の総合的・実証的な分析を行った。
実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文 参考訳(メタデータ) (2025-11-26T04:36:34Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - Safety-aware Causal Representation for Trustworthy Offline Reinforcement
Learning in Autonomous Driving [33.672722472758636]
オフライン強化学習(RL)アプローチは、オフラインデータセットからのシーケンシャルな意思決定問題に対処する上で、顕著な効果を示す。
一般化可能なエンドツーエンド駆動ポリシの学習を容易にするために,saFety-aware strUctured Scenario representation (Fusion)を導入した。
様々な運転シナリオにおける実証的な証拠は、フュージョンが自律運転エージェントの安全性と一般化性を著しく向上させることを証明している。
論文 参考訳(メタデータ) (2023-10-31T18:21:24Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Driving-Policy Adaptive Safeguard for Autonomous Vehicles Using
Reinforcement Learning [19.71676985220504]
本稿では,衝突回避戦略とアクティベーション機能を含むDPAS設計を提案する。
運転政策適応型アクティベーション機能は、緊急脅威が検出された場合に、現在の運転方針リスクを動的に評価し、起動する必要がある。
実験の結果は自然発生運転データにより校正され, より多くの介入を伴わずに, 衝突速度を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-12-02T08:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。