論文の概要: Provable Traffic Rule Compliance in Safe Reinforcement Learning on the
Open Sea
- arxiv url: http://arxiv.org/abs/2402.08502v1
- Date: Tue, 13 Feb 2024 14:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:05:49.714056
- Title: Provable Traffic Rule Compliance in Safe Reinforcement Learning on the
Open Sea
- Title(参考訳): 開海での安全強化学習における確率的交通規則コンプライアンス
- Authors: Hanna Krasowski, Matthias Althoff
- Abstract要約: 強化学習(Reinforcement Learning)は、時間論理仕様に準拠した動作計画を見つけるための有望な方法である。
我々は、常に交通規則に準拠する安全かつ安全なRLアプローチを提案する。
- 参考スコア(独自算出の注目度): 9.471665570104802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous vehicles have to obey traffic rules. These rules are often
formalized using temporal logic, resulting in constraints that are hard to
solve using optimization-based motion planners. Reinforcement Learning (RL) is
a promising method to find motion plans adhering to temporal logic
specifications. However, vanilla RL algorithms are based on random exploration,
which is inherently unsafe. To address this issue, we propose a provably safe
RL approach that always complies with traffic rules. As a specific application
area, we consider vessels on the open sea, which must adhere to the Convention
on the International Regulations for Preventing Collisions at Sea (COLREGS). We
introduce an efficient verification approach that determines the compliance of
actions with respect to the COLREGS formalized using temporal logic. Our action
verification is integrated into the RL process so that the agent only selects
verified actions. In contrast to agents that only integrate the traffic rule
information in the reward function, our provably safe agent always complies
with the formalized rules in critical maritime traffic situations and, thus,
never causes a collision.
- Abstract(参考訳): 自動運転車は交通規則に従う必要がある。
これらの規則はしばしば時間論理を用いて定式化され、最適化ベースの運動プランナーでは解決が難しい制約が生じる。
強化学習(rl)は、時相論理仕様に準拠した動作計画を見つけるための有望な方法である。
しかしながら、バニラRLアルゴリズムは本質的に安全でないランダム探索に基づいている。
この問題に対処するため,交通ルールに常に準拠する安全なRLアプローチを提案する。
特定の応用分野として、海上衝突防止条約(COLREGS)に従わなければならない開海での船舶について検討する。
本稿では,時間論理を用いて定式化されたCOLREGSに対する行動のコンプライアンスを決定する,効率的な検証手法を提案する。
我々のアクション検証はRLプロセスに統合され、エージェントが検証されたアクションのみを選択する。
報酬関数にトラフィックルール情報のみを統合するエージェントとは対照的に、当社の安全エージェントは常に重要な海上交通状況において形式化されたルールに準拠しているため、衝突を起こさない。
関連論文リスト
- Driving with Regulation: Interpretable Decision-Making for Autonomous Vehicles with Retrieval-Augmented Reasoning via LLM [11.725133614445093]
この研究は、自動運転車の解釈可能な意思決定の枠組みを示す。
我々は、検索型拡張生成(RAG)に基づく交通規制検索(TRR)エージェントを開発する。
検索したルールの意味的な複雑さを考えると、我々はLarge Language Model (LLM)を利用した推論モジュールも設計する。
論文 参考訳(メタデータ) (2024-10-07T05:27:22Z) - TR2MTL: LLM based framework for Metric Temporal Logic Formalization of Traffic Rules [0.0]
TR2MTLは、大規模言語モデル(LLM)を使用して、交通ルールを自動的にメートル法時間論理(MTL)に変換するフレームワークである。
AVルールの形式化のためのヒューマン・イン・ループ・システムとして構想されている。
時間論理や規則の様々な形式に拡張することができる。
論文 参考訳(メタデータ) (2024-06-09T09:55:04Z) - Learning Realistic Traffic Agents in Closed-loop [36.38063449192355]
強化学習(RL)は、違反を避けるために交通エージェントを訓練することができるが、RLのみを使用することで非人間的な運転行動をもたらす。
本稿では,交通規制制約の下で,専門家による実演と一致させるためにRTR(Reinforce Traffic Rules)を提案する。
実験の結果,RTRはより現実的で一般化可能な交通シミュレーションポリシーを学習することがわかった。
論文 参考訳(メタデータ) (2023-11-02T16:55:23Z) - CAT: Closed-loop Adversarial Training for Safe End-to-End Driving [54.60865656161679]
Adversarial Training (CAT) は、自動運転車における安全なエンドツーエンド運転のためのフレームワークである。
Catは、安全クリティカルなシナリオでエージェントを訓練することで、運転エージェントの安全性を継続的に改善することを目的としている。
猫は、訓練中のエージェントに対抗する敵シナリオを効果的に生成できる。
論文 参考訳(メタデータ) (2023-10-19T02:49:31Z) - Guided Conditional Diffusion for Controllable Traffic Simulation [42.198185904248994]
制御可能で現実的な交通シミュレーションは、自動運転車の開発と検証に不可欠である。
データ駆動アプローチは現実的で人間的な振る舞いを生成し、シミュレートされたトラフィックから現実のトラフィックへの移行を改善する。
本研究では,制御可能なトラヒック生成(CTG)のための条件拡散モデルを構築し,テスト時に所望のトラジェクトリ特性を制御できるようにする。
論文 参考訳(メタデータ) (2022-10-31T14:44:59Z) - Quantification of Actual Road User Behavior on the Basis of Given
Traffic Rules [4.731404257629232]
本研究では,人間の運転データから規則適合度の分布を導出する手法を提案する。
提案手法は,オープンモーションデータセットと安全距離および速度制限ルールを用いて実証する。
論文 参考訳(メタデータ) (2022-02-07T09:14:53Z) - End-to-End Intersection Handling using Multi-Agent Deep Reinforcement
Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。
本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。
本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2021-04-28T07:54:40Z) - MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。
近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。
本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z) - Emergent Road Rules In Multi-Agent Driving Environments [84.82583370858391]
運転環境の要素が道路ルールの出現の原因となるかを分析する。
2つの重要な要因が雑音知覚とエージェントの空間密度であることがわかった。
我々の結果は、世界中の国々が安全で効率的な運転で合意した社会道路規則を実証的に支持する。
論文 参考訳(メタデータ) (2020-11-21T09:43:50Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。