論文の概要: Provable Traffic Rule Compliance in Safe Reinforcement Learning on the Open Sea
- arxiv url: http://arxiv.org/abs/2402.08502v2
- Date: Thu, 16 May 2024 21:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 18:31:55.333884
- Title: Provable Traffic Rule Compliance in Safe Reinforcement Learning on the Open Sea
- Title(参考訳): 開海での安全強化学習における確率的交通規則コンプライアンス
- Authors: Hanna Krasowski, Matthias Althoff,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、自動運転車の運動計画を見つけるための有望な方法である。
提案手法は,時間論理仕様をRLに組み込むことにより,規則遵守の保証を実現する。
重要な海上交通状況に関する数値的な評価では、我々のエージェントは常に形式化された法規に準拠し、決して衝突しない。
- 参考スコア(独自算出の注目度): 8.017543518311196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For safe operation, autonomous vehicles have to obey traffic rules that are set forth in legal documents formulated in natural language. Temporal logic is a suitable concept to formalize such traffic rules. Still, temporal logic rules often result in constraints that are hard to solve using optimization-based motion planners. Reinforcement learning (RL) is a promising method to find motion plans for autonomous vehicles. However, vanilla RL algorithms are based on random exploration and do not automatically comply with traffic rules. Our approach accomplishes guaranteed rule-compliance by integrating temporal logic specifications into RL. Specifically, we consider the application of vessels on the open sea, which must adhere to the Convention on the International Regulations for Preventing Collisions at Sea (COLREGS). To efficiently synthesize rule-compliant actions, we combine predicates based on set-based prediction with a statechart representing our formalized rules and their priorities. Action masking then restricts the RL agent to this set of verified rule-compliant actions. In numerical evaluations on critical maritime traffic situations, our agent always complies with the formalized legal rules and never collides while achieving a high goal-reaching rate during training and deployment. In contrast, vanilla and traffic rule-informed RL agents frequently violate traffic rules and collide even after training.
- Abstract(参考訳): 安全運転のためには、自動運転車は自然言語で定式化された法律文書に規定される交通規則に従う必要がある。
時間論理はそのような交通規則を形式化するのに適した概念である。
それでも時相論理則は、最適化ベースのモーションプランナを使って解決が難しい制約をもたらすことが多い。
強化学習(Reinforcement Learning, RL)は、自動運転車の運動計画を見つけるための有望な方法である。
しかしながら、バニラRLアルゴリズムはランダムな探索に基づいており、交通規則に自動的に従わない。
提案手法は,時間論理仕様をRLに組み込むことにより,規則遵守の保証を実現する。
具体的には、海上衝突防止条約(COLREGS)に従わなければならない開海船の適用について検討する。
ルールに準拠した動作を効率的に合成するために,セットベースの予測に基づく述語と,形式化されたルールとその優先順位を表すステートチャートを組み合わせる。
アクションマスキングは、RLエージェントをこの認証されたルール準拠のアクションセットに制限する。
重要な海上交通状況に関する数値的な評価では、我々のエージェントは常に形式化された法則に準拠し、訓練や展開中に高い目標達成率を達成する一方で、決して衝突しない。
対照的に、バニラと交通ルールにインフォームされたRLエージェントは、しばしば交通規則に違反し、訓練後にも衝突する。
関連論文リスト
- TR2MTL: LLM based framework for Metric Temporal Logic Formalization of Traffic Rules [0.0]
TR2MTLは、大規模言語モデル(LLM)を使用して、交通ルールを自動的にメートル法時間論理(MTL)に変換するフレームワークである。
AVルールの形式化のためのヒューマン・イン・ループ・システムとして構想されている。
時間論理や規則の様々な形式に拡張することができる。
論文 参考訳(メタデータ) (2024-06-09T09:55:04Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Controllable Adversaries [94.84458417662407]
本稿では,新しい拡散制御型クローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
我々は,認知過程における敵対的項を通して,安全クリティカルなシナリオをシミュレートする新しい手法を開発した。
我々はNuScenesデータセットを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Learning Realistic Traffic Agents in Closed-loop [36.38063449192355]
強化学習(RL)は、違反を避けるために交通エージェントを訓練することができるが、RLのみを使用することで非人間的な運転行動をもたらす。
本稿では,交通規制制約の下で,専門家による実演と一致させるためにRTR(Reinforce Traffic Rules)を提案する。
実験の結果,RTRはより現実的で一般化可能な交通シミュレーションポリシーを学習することがわかった。
論文 参考訳(メタデータ) (2023-11-02T16:55:23Z) - CAT: Closed-loop Adversarial Training for Safe End-to-End Driving [54.60865656161679]
Adversarial Training (CAT) は、自動運転車における安全なエンドツーエンド運転のためのフレームワークである。
Catは、安全クリティカルなシナリオでエージェントを訓練することで、運転エージェントの安全性を継続的に改善することを目的としている。
猫は、訓練中のエージェントに対抗する敵シナリオを効果的に生成できる。
論文 参考訳(メタデータ) (2023-10-19T02:49:31Z) - Guided Conditional Diffusion for Controllable Traffic Simulation [42.198185904248994]
制御可能で現実的な交通シミュレーションは、自動運転車の開発と検証に不可欠である。
データ駆動アプローチは現実的で人間的な振る舞いを生成し、シミュレートされたトラフィックから現実のトラフィックへの移行を改善する。
本研究では,制御可能なトラヒック生成(CTG)のための条件拡散モデルを構築し,テスト時に所望のトラジェクトリ特性を制御できるようにする。
論文 参考訳(メタデータ) (2022-10-31T14:44:59Z) - Quantification of Actual Road User Behavior on the Basis of Given
Traffic Rules [4.731404257629232]
本研究では,人間の運転データから規則適合度の分布を導出する手法を提案する。
提案手法は,オープンモーションデータセットと安全距離および速度制限ルールを用いて実証する。
論文 参考訳(メタデータ) (2022-02-07T09:14:53Z) - Motion Planning for Autonomous Vehicles in the Presence of Uncertainty
Using Reinforcement Learning [0.0]
不確実性の下での運動計画は、自動運転車の開発における主要な課題の1つである。
最悪の事例を最適化して不確実性を管理するための強化学習に基づくソリューションを提案する。
提案手法は従来のRLアルゴリズムよりもはるかに優れた動作計画行動を示し,人間の運転スタイルと相容れない動作を示す。
論文 参考訳(メタデータ) (2021-10-01T20:32:25Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - Emergent Road Rules In Multi-Agent Driving Environments [84.82583370858391]
運転環境の要素が道路ルールの出現の原因となるかを分析する。
2つの重要な要因が雑音知覚とエージェントの空間密度であることがわかった。
我々の結果は、世界中の国々が安全で効率的な運転で合意した社会道路規則を実証的に支持する。
論文 参考訳(メタデータ) (2020-11-21T09:43:50Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。