論文の概要: Potential-based Credit Assignment for Cooperative RL-based Testing of
Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2305.18380v1
- Date: Sun, 28 May 2023 06:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:50:38.711032
- Title: Potential-based Credit Assignment for Cooperative RL-based Testing of
Autonomous Vehicles
- Title(参考訳): 自律走行車両の協調RL試験における可能性に基づくクレジットアサインメント
- Authors: Utku Ayvaz, Chih-Hong Cheng, Hao Shen
- Abstract要約: 本稿では、自律走行車(AV)の挑戦的なテストケースを生成するための協調強化学習(RL)の概念を紹介する。
協調RLにおける重要な課題の1つは、交通シナリオにおいて相互作用する複数のエージェントに対する報酬の適切な割り当てが、全てのパラメータとタイミングを考慮すると、非自明であることが判明した信用割当問題である。
本稿では,クレジットアサインメント問題の解法として,デファクト分析にインスパイアされた新たな可能性に基づく報酬形成手法を提案する。
- 参考スコア(独自算出の注目度): 8.807561314777802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While autonomous vehicles (AVs) may perform remarkably well in generic
real-life cases, their irrational action in some unforeseen cases leads to
critical safety concerns. This paper introduces the concept of collaborative
reinforcement learning (RL) to generate challenging test cases for AV planning
and decision-making module. One of the critical challenges for collaborative RL
is the credit assignment problem, where a proper assignment of rewards to
multiple agents interacting in the traffic scenario, considering all parameters
and timing, turns out to be non-trivial. In order to address this challenge, we
propose a novel potential-based reward-shaping approach inspired by
counterfactual analysis for solving the credit-assignment problem. The
evaluation in a simulated environment demonstrates the superiority of our
proposed approach against other methods using local and global rewards.
- Abstract(参考訳): 自律走行車(AV)は、一般的な現実のケースでは極めてよく機能するが、予期せぬケースでは不合理な動作が重大な安全上の懸念を引き起こす。
本稿では,av計画と意思決定モジュールのための挑戦的なテストケースを生成するための協調強化学習(rl)の概念を提案する。
コラボレーティブrlの重要な課題の1つは、クレジット割り当て問題であり、すべてのパラメータとタイミングを考慮して、トラフィックシナリオで相互作用する複数のエージェントに対して適切な報酬の割り当てが非自明であることが判明した。
この課題に対処するために,信用割り当て問題を解決するために,反事実分析に着想を得た,新たな可能性ベースの報酬形成手法を提案する。
シミュレーション環境における評価は,局所的および大域的な報酬を用いた他の手法に対する提案手法の優位性を示す。
関連論文リスト
- Safe and Robust Reinforcement Learning: Principles and Practice [0.0]
強化学習は比較的複雑なタスクの解決に顕著な成功を収めた。
現実のシナリオにおけるRLシステムのデプロイは、安全性と堅牢性に関する重大な課題を生じさせる。
本稿では, アルゴリズム, 倫理的, 実践的考察を含む安全で堅牢なRL景観の主次元について考察する。
論文 参考訳(メタデータ) (2024-03-27T13:14:29Z) - Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。
多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文 参考訳(メタデータ) (2023-11-05T19:43:23Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Behaviour-Diverse Automatic Penetration Testing: A Curiosity-Driven
Multi-Objective Deep Reinforcement Learning Approach [3.5071575478443435]
侵入テストは、実際のアクティブな敵をエミュレートすることで、ターゲットネットワークのセキュリティを評価する上で重要な役割を果たす。
深層強化学習(Deep Reinforcement Learning)は,浸透テストのプロセスを自動化するための,有望なソリューションだと考えられている。
我々は,チェビシェフ分解批判者に対して,侵入試験における異なる目的のバランスをとる多様な敵戦略を見出すことを提案する。
論文 参考訳(メタデータ) (2022-02-22T02:34:16Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Dependability Analysis of Deep Reinforcement Learning based Robotics and
Autonomous Systems [10.499662874457998]
深層強化学習(DRL)のブラックボックスの性質と不確実な展開環境は、その信頼性に新たな課題をもたらす。
本稿では、時間論理における信頼性特性のセットを定義し、DRL駆動RASのリスク/障害のダイナミクスをモデル化するための離散時間マルコフ連鎖(DTMC)を構築する。
実験の結果,提案手法は総合評価の枠組みとして有効であり,また,トレーニングにおいてトレードオフを必要とする可能性のある特性の相違を明らかにする。
論文 参考訳(メタデータ) (2021-09-14T08:42:29Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Multimodal Safety-Critical Scenarios Generation for Decision-Making
Algorithms Evaluation [23.43175124406634]
既存のニューラルネットワークベースの自律システムは、敵の攻撃に対して脆弱であることが示されている。
意思決定アルゴリズムの評価のためのフローベースマルチモーダル安全クリティカルシナリオジェネレータを提案する。
生成したトラフィックシナリオを用いて6つの強化学習アルゴリズムを評価し,その堅牢性に関する実証的な結論を提供する。
論文 参考訳(メタデータ) (2020-09-16T15:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。