Fugu-MT 論文翻訳(概要): Provable Traffic Rule Compliance in Safe Reinforcement Learning on the Open Sea

論文の概要: Provable Traffic Rule Compliance in Safe Reinforcement Learning on the Open Sea

arxiv url: http://arxiv.org/abs/2402.08502v1
Date: Tue, 13 Feb 2024 14:59:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 15:05:49.714056
Title: Provable Traffic Rule Compliance in Safe Reinforcement Learning on the Open Sea
Title（参考訳）: 開海での安全強化学習における確率的交通規則コンプライアンス
Authors: Hanna Krasowski, Matthias Althoff
Abstract要約: 強化学習(Reinforcement Learning)は、時間論理仕様に準拠した動作計画を見つけるための有望な方法である。我々は、常に交通規則に準拠する安全かつ安全なRLアプローチを提案する。
参考スコア（独自算出の注目度）: 9.471665570104802
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous vehicles have to obey traffic rules. These rules are often formalized using temporal logic, resulting in constraints that are hard to solve using optimization-based motion planners. Reinforcement Learning (RL) is a promising method to find motion plans adhering to temporal logic specifications. However, vanilla RL algorithms are based on random exploration, which is inherently unsafe. To address this issue, we propose a provably safe RL approach that always complies with traffic rules. As a specific application area, we consider vessels on the open sea, which must adhere to the Convention on the International Regulations for Preventing Collisions at Sea (COLREGS). We introduce an efficient verification approach that determines the compliance of actions with respect to the COLREGS formalized using temporal logic. Our action verification is integrated into the RL process so that the agent only selects verified actions. In contrast to agents that only integrate the traffic rule information in the reward function, our provably safe agent always complies with the formalized rules in critical maritime traffic situations and, thus, never causes a collision.
Abstract（参考訳）: 自動運転車は交通規則に従う必要がある。これらの規則はしばしば時間論理を用いて定式化され、最適化ベースの運動プランナーでは解決が難しい制約が生じる。強化学習(rl)は、時相論理仕様に準拠した動作計画を見つけるための有望な方法である。しかしながら、バニラRLアルゴリズムは本質的に安全でないランダム探索に基づいている。この問題に対処するため,交通ルールに常に準拠する安全なRLアプローチを提案する。特定の応用分野として、海上衝突防止条約(COLREGS)に従わなければならない開海での船舶について検討する。本稿では,時間論理を用いて定式化されたCOLREGSに対する行動のコンプライアンスを決定する,効率的な検証手法を提案する。我々のアクション検証はRLプロセスに統合され、エージェントが検証されたアクションのみを選択する。報酬関数にトラフィックルール情報のみを統合するエージェントとは対照的に、当社の安全エージェントは常に重要な海上交通状況において形式化されたルールに準拠しているため、衝突を起こさない。

関連論文リスト

Predictive Traffic Rule Compliance using Reinforcement Learning [7.280087547993983]
本稿では,交通ルール違反の可能性を予測するために,モーションプランナと深層強化学習モデルを統合するアプローチを提案する。我々の主な革新は、アクター・クリティカルな方法で標準的なアクター・ネットワークをモーション・プランニング・モジュールに置き換えることです。オープンなドイツの高速道路データセットの実験では、計画の地平線を超えた交通ルール違反を予測し、防止することができる。
論文参考訳（メタデータ） (2025-03-29T01:04:08Z)
SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
論文参考訳（メタデータ） (2025-02-28T21:53:47Z)
Traffic-Rule-Compliant Trajectory Repair via Satisfiability Modulo Theories and Reachability Analysis [6.5301153208275675]
自動走行車には、交通規則の遵守が難しい。時間節約のための軌道補修手法を提案する。高忠実度シミュレータと実世界の実験は,提案手法の利点を実証している。
論文参考訳（メタデータ） (2024-12-20T12:26:22Z)
Driving with Regulation: Interpretable Decision-Making for Autonomous Vehicles with Retrieval-Augmented Reasoning via LLM [11.725133614445093]
この研究は、自動運転車の解釈可能な意思決定の枠組みを示す。我々は、検索型拡張生成(RAG)に基づく交通規制検索(TRR)エージェントを開発する。検索したルールの意味的な複雑さを考えると、我々はLarge Language Model (LLM)を利用した推論モジュールも設計する。
論文参考訳（メタデータ） (2024-10-07T05:27:22Z)
TR2MTL: LLM based framework for Metric Temporal Logic Formalization of Traffic Rules [0.0]
TR2MTLは、大規模言語モデル(LLM)を使用して、交通ルールを自動的にメートル法時間論理(MTL)に変換するフレームワークである。 AVルールの形式化のためのヒューマン・イン・ループ・システムとして構想されている。時間論理や規則の様々な形式に拡張することができる。
論文参考訳（メタデータ） (2024-06-09T09:55:04Z)
Learning Realistic Traffic Agents in Closed-loop [36.38063449192355]
強化学習(RL)は、違反を避けるために交通エージェントを訓練することができるが、RLのみを使用することで非人間的な運転行動をもたらす。本稿では,交通規制制約の下で,専門家による実演と一致させるためにRTR(Reinforce Traffic Rules)を提案する。実験の結果,RTRはより現実的で一般化可能な交通シミュレーションポリシーを学習することがわかった。
論文参考訳（メタデータ） (2023-11-02T16:55:23Z)
CAT: Closed-loop Adversarial Training for Safe End-to-End Driving [54.60865656161679]
Adversarial Training (CAT) は、自動運転車における安全なエンドツーエンド運転のためのフレームワークである。 Catは、安全クリティカルなシナリオでエージェントを訓練することで、運転エージェントの安全性を継続的に改善することを目的としている。猫は、訓練中のエージェントに対抗する敵シナリオを効果的に生成できる。
論文参考訳（メタデータ） (2023-10-19T02:49:31Z)
Guided Conditional Diffusion for Controllable Traffic Simulation [42.198185904248994]
制御可能で現実的な交通シミュレーションは、自動運転車の開発と検証に不可欠である。データ駆動アプローチは現実的で人間的な振る舞いを生成し、シミュレートされたトラフィックから現実のトラフィックへの移行を改善する。本研究では,制御可能なトラヒック生成(CTG)のための条件拡散モデルを構築し,テスト時に所望のトラジェクトリ特性を制御できるようにする。
論文参考訳（メタデータ） (2022-10-31T14:44:59Z)
Quantification of Actual Road User Behavior on the Basis of Given Traffic Rules [4.731404257629232]
本研究では,人間の運転データから規則適合度の分布を導出する手法を提案する。提案手法は,オープンモーションデータセットと安全距離および速度制限ルールを用いて実証する。
論文参考訳（メタデータ） (2022-02-07T09:14:53Z)
End-to-End Intersection Handling using Multi-Agent Deep Reinforcement Learning [63.56464608571663]
交差点をナビゲートすることは、自動運転車にとって大きな課題の1つです。本研究では,交通標識のみが提供された交差点をナビゲート可能なシステムの実装に着目する。本研究では,時間ステップ毎に加速度と操舵角を予測するためのニューラルネットワークの訓練に用いる,モデルフリーの連続学習アルゴリズムを用いたマルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2021-04-28T07:54:40Z)
MetaVIM: Meta Variationally Intrinsic Motivated Reinforcement Learning for Decentralized Traffic Signal Control [54.162449208797334]
交通信号制御は、交差点を横断する交通信号を調整し、地域や都市の交通効率を向上させることを目的としている。近年,交通信号制御に深部強化学習(RL)を適用し,各信号がエージェントとみなされる有望な性能を示した。本稿では,近隣情報を考慮した各交差点の分散化政策を潜時的に学習するメタ変動固有モチベーション(MetaVIM)RL法を提案する。
論文参考訳（メタデータ） (2021-01-04T03:06:08Z)
Emergent Road Rules In Multi-Agent Driving Environments [84.82583370858391]
運転環境の要素が道路ルールの出現の原因となるかを分析する。 2つの重要な要因が雑音知覚とエージェントの空間密度であることがわかった。我々の結果は、世界中の国々が安全で効率的な運転で合意した社会道路規則を実証的に支持する。
論文参考訳（メタデータ） (2020-11-21T09:43:50Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。