論文の概要: SoftCTRL: Soft conservative KL-control of Transformer Reinforcement Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2410.22752v1
- Date: Wed, 30 Oct 2024 07:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:26:54.470102
- Title: SoftCTRL: Soft conservative KL-control of Transformer Reinforcement Learning for Autonomous Driving
- Title(参考訳): SoftCTRL:自律運転のための変圧器強化学習のソフト保守的KL制御
- Authors: Minh Tri Huynh, Duc Dung Nguyen,
- Abstract要約: 本稿では,暗黙のエントロピー-KL制御を用いて,ILと強化学習(RL)を組み合わせる手法を提案する。
特に、未確認のデータセットと異なる挑戦的都市シナリオを検証した結果、ILは模倣作業でうまく機能するが、提案手法はロバスト性(障害の17%以上)を著しく改善し、人間のような運転行動を生成することが示唆された。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License:
- Abstract: In recent years, motion planning for urban self-driving cars (SDV) has become a popular problem due to its complex interaction of road components. To tackle this, many methods have relied on large-scale, human-sampled data processed through Imitation learning (IL). Although effective, IL alone cannot adequately handle safety and reliability concerns. Combining IL with Reinforcement learning (RL) by adding KL divergence between RL and IL policy to the RL loss can alleviate IL's weakness but suffer from over-conservation caused by covariate shift of IL. To address this limitation, we introduce a method that combines IL with RL using an implicit entropy-KL control that offers a simple way to reduce the over-conservation characteristic. In particular, we validate different challenging simulated urban scenarios from the unseen dataset, indicating that although IL can perform well in imitation tasks, our proposed method significantly improves robustness (over 17\% reduction in failures) and generates human-like driving behavior.
- Abstract(参考訳): 近年,道路部品の複雑な相互作用により,都市型自動運転車(SDV)の移動計画が一般的な問題となっている。
これを解決するために、多くの手法はImitation Learning (IL)によって処理された大規模で人間のサンプルデータに依存してきた。
有効ではあるが、ILだけでは安全と信頼性の懸念を適切に扱えない。
ILと強化学習(Reinforcement Learning, RL)を組み合わせることで、RLとILポリシーのKLの相違をRLの損失に加えることで、ILの弱点を軽減できるが、ILの共変量シフトによる過保守に悩まされる。
この制限に対処するために,暗黙のエントロピー-KL制御を用いてILとRLを組み合わせる方法を提案する。
特に、未確認のデータセットと異なる挑戦的都市シナリオを検証した結果、ILは模倣作業でうまく機能するが、提案手法はロバスト性(故障の17/%以上)を著しく改善し、人間のような運転行動を生成することが示唆された。
関連論文リスト
- CIMRL: Combining IMitation and Reinforcement Learning for Safe Autonomous Driving [45.05135725542318]
本研究では,模擬動作の事前条件と安全性制約を活用することで,シミュレーションにおける運転ポリシーのトレーニングを可能にするフレームワークを提案する。
RLと模倣を組み合わせることで,本手法は閉ループシミュレーション駆動ベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-06-13T07:31:29Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Efficient Off-Policy Safe Reinforcement Learning Using Trust Region
Conditional Value at Risk [16.176812250762666]
TRCと呼ばれるオンライン安全なRL法は、信頼領域法を用いてCVaR制約されたRL問題を扱う。
複雑な環境下での優れた性能を実現し、安全制約を迅速に満たすためには、RL法を効率的にサンプリングする必要がある。
本稿では,分散シフトの効果を低減できる新しいサロゲート関数を提案するとともに,リプレイバッファから遠く離れないようにするためのアダプティブな信頼領域制約を導入する。
論文 参考訳(メタデータ) (2023-12-01T04:29:19Z) - Towards Safe Autonomous Driving Policies using a Neuro-Symbolic Deep
Reinforcement Learning Approach [6.961253535504979]
本稿では, DRLSL (Dybolic Logics) と呼ばれる新しいニューロシンボリックモデルフリーDRLアプローチを提案する。
DRL(経験から学ぶ)とシンボリックな一階述語論理(知識駆動推論)の強みを組み合わせることで、実環境における自動運転のリアルタイムインタラクションにおける安全な学習を可能にする。
我々は,ハイDデータセットを用いた自律走行にDRLSLフレームワークを実装し,トレーニングとテストの両段階において,安全でない動作を回避できることを実証した。
論文 参考訳(メタデータ) (2023-07-03T19:43:21Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Model-based Safe Reinforcement Learning using Generalized Control
Barrier Function [6.556257209888797]
本稿では,制約付きRLのモデルに基づく実現性向上手法を提案する。
モデル情報を使用することで、実際の安全制約に違反することなく、ポリシーを安全に最適化することができる。
提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。
論文 参考訳(メタデータ) (2021-03-02T08:17:38Z) - Decision-making at Unsignalized Intersection for Autonomous Vehicles:
Left-turn Maneuver with Deep Reinforcement Learning [17.715274169051494]
本研究は、自動運転車の信号なし交差点における深層強化学習に基づく左旋回意思決定フレームワークを提案する。
提案した意思決定戦略は、衝突率を効果的に低減し、輸送効率を向上させることができる。
この研究は、構築された左旋回制御構造がリアルタイムに適用可能な大きな可能性を持っていることも明らかにした。
論文 参考訳(メタデータ) (2020-08-14T22:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。