論文の概要: A New Approach for Tactical Decision Making in Lane Changing: Sample
Efficient Deep Q Learning with a Safety Feedback Reward
- arxiv url: http://arxiv.org/abs/2009.11905v1
- Date: Thu, 24 Sep 2020 18:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:31:58.554511
- Title: A New Approach for Tactical Decision Making in Lane Changing: Sample
Efficient Deep Q Learning with a Safety Feedback Reward
- Title(参考訳): レーン切替えにおける戦術的意思決定のための新しいアプローチ:安全フィードバックリワードを用いた高能率深部Q学習
- Authors: M. Ugur Yavas, N. Kemal Ure, Tufan Kumbasar
- Abstract要約: 本稿では,最先端のQラーニング手法であるレインボーDQNの新規展開について述べる。
本稿では,安全層からの報酬フィードバックがエージェントの性能とサンプル効率の両方を劇的に向上させる新しい手法を提案する。
提案アルゴリズムは,20000のトレーニングステップしか持たない難解なシナリオにおいて,ベースラインアルゴリズムよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 2.277447144331876
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated lane change is one of the most challenging task to be solved of
highly automated vehicles due to its safety-critical, uncertain and multi-agent
nature. This paper presents the novel deployment of the state of art Q learning
method, namely Rainbow DQN, that uses a new safety driven rewarding scheme to
tackle the issues in an dynamic and uncertain simulation environment. We
present various comparative results to show that our novel approach of having
reward feedback from the safety layer dramatically increases both the agent's
performance and sample efficiency. Furthermore, through the novel deployment of
Rainbow DQN, it is shown that more intuition about the agent's actions is
extracted by examining the distributions of generated Q values of the agents.
The proposed algorithm shows superior performance to the baseline algorithm in
the challenging scenarios with only 200000 training steps (i.e. equivalent to
55 hours driving).
- Abstract(参考訳): 自動車線変更は、安全クリティカルで不確実でマルチエージェントな性質のため、高度に自動化された車両の解決が最も難しい課題の1つである。
本稿では,動的かつ不確実なシミュレーション環境における課題に対処するために,新しい安全駆動報酬方式を用いた最先端Qラーニング手法であるRainbow DQNの新規展開について述べる。
安全層から報奨フィードバックを受けるという新しいアプローチは,エージェントの性能とサンプル効率の両方を劇的に向上させることを示した。
さらに, レインボーDQNの新規展開により, エージェントのQ値の分布を調べることにより, エージェントの行動に関する直感がより多く抽出されることが示されている。
提案アルゴリズムは,20000のトレーニングステップ(55時間運転に相当する)しか持たない難題において,ベースラインアルゴリズムよりも優れた性能を示す。
関連論文リスト
- Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving [17.27549891731047]
我々は,強化学習を用いた行動モデルのクローズドループ微調整によりエージェント動作の信頼性を向上させる。
本手法は,衝突速度などの目標値の改善とともに,全体的な性能の向上を示す。
シミュレーションエージェントが自律走行車プランナーの質を計測する能力を直接評価するための新しいポリシー評価ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-26T23:40:33Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - SS-SFDA : Self-Supervised Source-Free Domain Adaptation for Road
Segmentation in Hazardous Environments [54.22535063244038]
本研究では,雨や霧などの悪天候条件下での道路の非監督的区画化に対する新しいアプローチを提案する。
これには、自己教師付き学習を用いたソースフリードメイン適応(SFDA)のための新しいアルゴリズムが含まれている。
実際の悪天候条件と合成悪天候条件に対応するデータセットを6ドルで評価した。
論文 参考訳(メタデータ) (2020-11-27T09:19:03Z) - Behaviorally Diverse Traffic Simulation via Reinforcement Learning [16.99423598448411]
本稿では,自律運転エージェントのための簡易なポリシー生成アルゴリズムを提案する。
提案アルゴリズムは,深層強化学習の表現能力と探索能力を活用することで,多様性と運転能力のバランスをとる。
本手法の有効性を,いくつかの挑戦的な交差点シーンにおいて実験的に示す。
論文 参考訳(メタデータ) (2020-11-11T12:49:11Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Risk-Aware High-level Decisions for Automated Driving at Occluded
Intersections with Reinforcement Learning [16.69903761648675]
信号のない交差点を走行するための高レベル動作を学習するための一般的なリスク認識型DQNアプローチを提案する。
提案された状態表現は、マルチレーンシナリオで使用できるレーンベースの情報を提供する。
また,衝突事故だけでなく,危険事態を罰するリスクベース報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-09T09:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。