論文の概要: Potential-based Credit Assignment for Cooperative RL-based Testing of
Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2305.18380v1
- Date: Sun, 28 May 2023 06:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:50:38.711032
- Title: Potential-based Credit Assignment for Cooperative RL-based Testing of
Autonomous Vehicles
- Title(参考訳): 自律走行車両の協調RL試験における可能性に基づくクレジットアサインメント
- Authors: Utku Ayvaz, Chih-Hong Cheng, Hao Shen
- Abstract要約: 本稿では、自律走行車(AV)の挑戦的なテストケースを生成するための協調強化学習(RL)の概念を紹介する。
協調RLにおける重要な課題の1つは、交通シナリオにおいて相互作用する複数のエージェントに対する報酬の適切な割り当てが、全てのパラメータとタイミングを考慮すると、非自明であることが判明した信用割当問題である。
本稿では,クレジットアサインメント問題の解法として,デファクト分析にインスパイアされた新たな可能性に基づく報酬形成手法を提案する。
- 参考スコア(独自算出の注目度): 8.807561314777802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While autonomous vehicles (AVs) may perform remarkably well in generic
real-life cases, their irrational action in some unforeseen cases leads to
critical safety concerns. This paper introduces the concept of collaborative
reinforcement learning (RL) to generate challenging test cases for AV planning
and decision-making module. One of the critical challenges for collaborative RL
is the credit assignment problem, where a proper assignment of rewards to
multiple agents interacting in the traffic scenario, considering all parameters
and timing, turns out to be non-trivial. In order to address this challenge, we
propose a novel potential-based reward-shaping approach inspired by
counterfactual analysis for solving the credit-assignment problem. The
evaluation in a simulated environment demonstrates the superiority of our
proposed approach against other methods using local and global rewards.
- Abstract(参考訳): 自律走行車(AV)は、一般的な現実のケースでは極めてよく機能するが、予期せぬケースでは不合理な動作が重大な安全上の懸念を引き起こす。
本稿では,av計画と意思決定モジュールのための挑戦的なテストケースを生成するための協調強化学習(rl)の概念を提案する。
コラボレーティブrlの重要な課題の1つは、クレジット割り当て問題であり、すべてのパラメータとタイミングを考慮して、トラフィックシナリオで相互作用する複数のエージェントに対して適切な報酬の割り当てが非自明であることが判明した。
この課題に対処するために,信用割り当て問題を解決するために,反事実分析に着想を得た,新たな可能性ベースの報酬形成手法を提案する。
シミュレーション環境における評価は,局所的および大域的な報酬を用いた他の手法に対する提案手法の優位性を示す。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [79.088116316919]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。
本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文 参考訳(メタデータ) (2024-09-19T14:36:00Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Staged Reinforcement Learning for Complex Tasks through Decomposed
Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。
交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。
多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文 参考訳(メタデータ) (2023-11-05T19:43:23Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Behaviour-Diverse Automatic Penetration Testing: A Curiosity-Driven
Multi-Objective Deep Reinforcement Learning Approach [3.5071575478443435]
侵入テストは、実際のアクティブな敵をエミュレートすることで、ターゲットネットワークのセキュリティを評価する上で重要な役割を果たす。
深層強化学習(Deep Reinforcement Learning)は,浸透テストのプロセスを自動化するための,有望なソリューションだと考えられている。
我々は,チェビシェフ分解批判者に対して,侵入試験における異なる目的のバランスをとる多様な敵戦略を見出すことを提案する。
論文 参考訳(メタデータ) (2022-02-22T02:34:16Z) - Dependability Analysis of Deep Reinforcement Learning based Robotics and
Autonomous Systems [10.499662874457998]
深層強化学習(DRL)のブラックボックスの性質と不確実な展開環境は、その信頼性に新たな課題をもたらす。
本稿では、時間論理における信頼性特性のセットを定義し、DRL駆動RASのリスク/障害のダイナミクスをモデル化するための離散時間マルコフ連鎖(DTMC)を構築する。
実験の結果,提案手法は総合評価の枠組みとして有効であり,また,トレーニングにおいてトレードオフを必要とする可能性のある特性の相違を明らかにする。
論文 参考訳(メタデータ) (2021-09-14T08:42:29Z) - Multimodal Safety-Critical Scenarios Generation for Decision-Making
Algorithms Evaluation [23.43175124406634]
既存のニューラルネットワークベースの自律システムは、敵の攻撃に対して脆弱であることが示されている。
意思決定アルゴリズムの評価のためのフローベースマルチモーダル安全クリティカルシナリオジェネレータを提案する。
生成したトラフィックシナリオを用いて6つの強化学習アルゴリズムを評価し,その堅牢性に関する実証的な結論を提供する。
論文 参考訳(メタデータ) (2020-09-16T15:16:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。