Fugu-MT 論文翻訳(概要): Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving

論文の概要: Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving

arxiv url: http://arxiv.org/abs/2403.18209v1
Date: Wed, 27 Mar 2024 02:41:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 18:36:01.783366
Title: Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving
Title（参考訳）: 自律運転のための長期・短期制約駆動型安全強化学習
Authors: Xuemin Hu, Pan Chen, Yijun Wen, Bo Tang, Long Chen,
Abstract要約: 強化学習 (Reinforcement Learning, RL) は意思決定作業において広く用いられているが, 訓練過程におけるエージェントの安全性を保証することはできない。安全RLのための長短制約(LSTC)に基づく新しいアルゴリズムを提案する。本稿では,ラグランジュ乗算器に基づく二制約最適化を用いた安全なRL法を開発し,エンドツーエンド自動運転のトレーニングプロセスを最適化する。
参考スコア（独自算出の注目度）: 11.072917563013428
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has been widely used in decision-making tasks, but it cannot guarantee the agent's safety in the training process due to the requirements of interaction with the environment, which seriously limits its industrial applications such as autonomous driving. Safe RL methods are developed to handle this issue by constraining the expected safety violation costs as a training objective, but they still permit unsafe state occurrence, which is unacceptable in autonomous driving tasks. Moreover, these methods are difficult to achieve a balance between the cost and return expectations, which leads to learning performance degradation for the algorithms. In this paper, we propose a novel algorithm based on the long and short-term constraints (LSTC) for safe RL. The short-term constraint aims to guarantee the short-term state safety that the vehicle explores, while the long-term constraint ensures the overall safety of the vehicle throughout the decision-making process. In addition, we develop a safe RL method with dual-constraint optimization based on the Lagrange multiplier to optimize the training process for end-to-end autonomous driving. Comprehensive experiments were conducted on the MetaDrive simulator. Experimental results demonstrate that the proposed method achieves higher safety in continuous state and action tasks, and exhibits higher exploration performance in long-distance decision-making tasks compared with state-of-the-art methods.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は, 意思決定作業において広く用いられているが, 自律運転などの産業的応用を著しく制限する環境との相互作用が要求されるため, 訓練プロセスにおけるエージェントの安全性を保証することはできない。安全RL法は、トレーニング目標として期待される安全違反コストを抑えることでこの問題に対処するために開発されたが、自動運転タスクでは受け入れられない安全でない状態の発生を許している。さらに、これらの手法はコストとリターン期待のバランスをとることが困難であり、アルゴリズムの性能劣化の学習につながる。本稿では,安全RLのための長短制約(LSTC)に基づく新しいアルゴリズムを提案する。短期的制約は、車両が探索する短期的安全性を保証することを目的としており、一方、長期的制約は、意思決定プロセスを通して車両全体の安全性を保証する。さらに,ラグランジュ乗算器に基づく二制約最適化を用いた安全なRL法を開発し,エンドツーエンド自動運転のトレーニングプロセスを最適化する。 MetaDriveシミュレータの総合的な実験を行った。実験の結果,提案手法は連続状態および動作タスクにおいて高い安全性を達成でき,また,長距離意思決定タスクにおいて最先端の手法と比較して高い探索性能を示すことがわかった。

関連論文リスト

Distributional Soft Actor-Critic with Harmonic Gradient for Safe and Efficient Autonomous Driving in Multi-lane Scenarios [16.23857092084669]
ハーモニック・ポリシー・イテレーション(HPI)と呼ばれる新しい安全指向トレーニング手法を提案する。各RLイテレーションでは、それぞれに効率的な運転と安全性の制約に関連する2つのポリシー勾配を計算する。調和勾配は、2つの勾配間の衝突を最小限に抑え、ポリシー更新のために導かれる。我々は最先端のDSACアルゴリズムをバックボーンとして採用し、HPIと統合して新しい安全なRLアルゴリズムDSAC-Hを開発した。
論文参考訳（メタデータ） (2025-05-18T11:35:57Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation [5.928213664340974]
本研究は自動運転の制御最適化問題における安全性問題に対処する。本稿では,条件付きバリュー・アット・リスクに基づくソフトアクター批判を利用して,ポリシー最適化のための新しいモデルベースアプローチを提案する。本手法では, 安全探索を誘導する最悪のアクターを導入し, 予測不可能なシナリオにおいても, 安全要件の厳密な遵守を確保する。
論文参考訳（メタデータ） (2024-07-08T18:32:40Z)
CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving [45.05135725542318]
CIMRL(imitation and Reinforcement Learning)アプローチは、模倣動作の先行と安全性の制約を活用することで、シミュレーションにおける運転ポリシーのトレーニングを可能にする。 RLと模倣を組み合わせることで, クローズドループシミュレーションと実世界の運転ベンチマークにおいて, 最先端の結果が得られたことを実証する。
論文参考訳（メタデータ） (2024-06-13T07:31:29Z)
Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文参考訳（メタデータ） (2024-05-29T18:00:21Z)
RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文参考訳（メタデータ） (2024-05-07T23:32:36Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
Evaluation of Safety Constraints in Autonomous Navigation with Deep Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文参考訳（メタデータ） (2023-07-27T01:04:57Z)
Towards Safe Autonomous Driving Policies using a Neuro-Symbolic Deep Reinforcement Learning Approach [6.961253535504979]
本稿では, DRLSL (Dybolic Logics) と呼ばれる新しいニューロシンボリックモデルフリーDRLアプローチを提案する。 DRL(経験から学ぶ)とシンボリックな一階述語論理(知識駆動推論)の強みを組み合わせることで、実環境における自動運転のリアルタイムインタラクションにおける安全な学習を可能にする。我々は,ハイDデータセットを用いた自律走行にDRLSLフレームワークを実装し,トレーニングとテストの両段階において,安全でない動作を回避できることを実証した。
論文参考訳（メタデータ） (2023-07-03T19:43:21Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
High-level Decisions from a Safe Maneuver Catalog with Reinforcement Learning for Safe and Cooperative Automated Merging [5.732271870257913]
統合シナリオにおける安全かつ協調的な自動運転のための効率的なRLに基づく意思決定パイプラインを提案する。提案するRLエージェントは、車両状態履歴から協調運転者を効率よく識別し、対話的な操作を生成する。
論文参考訳（メタデータ） (2021-07-15T15:49:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。