Fugu-MT 論文翻訳(概要): Potential-based Credit Assignment for Cooperative RL-based Testing of Autonomous Vehicles

論文の概要: Potential-based Credit Assignment for Cooperative RL-based Testing of Autonomous Vehicles

arxiv url: http://arxiv.org/abs/2305.18380v1
Date: Sun, 28 May 2023 06:41:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 21:50:38.711032
Title: Potential-based Credit Assignment for Cooperative RL-based Testing of Autonomous Vehicles
Title（参考訳）: 自律走行車両の協調RL試験における可能性に基づくクレジットアサインメント
Authors: Utku Ayvaz, Chih-Hong Cheng, Hao Shen
Abstract要約: 本稿では、自律走行車(AV)の挑戦的なテストケースを生成するための協調強化学習(RL)の概念を紹介する。協調RLにおける重要な課題の1つは、交通シナリオにおいて相互作用する複数のエージェントに対する報酬の適切な割り当てが、全てのパラメータとタイミングを考慮すると、非自明であることが判明した信用割当問題である。本稿では,クレジットアサインメント問題の解法として,デファクト分析にインスパイアされた新たな可能性に基づく報酬形成手法を提案する。
参考スコア（独自算出の注目度）: 8.807561314777802
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While autonomous vehicles (AVs) may perform remarkably well in generic real-life cases, their irrational action in some unforeseen cases leads to critical safety concerns. This paper introduces the concept of collaborative reinforcement learning (RL) to generate challenging test cases for AV planning and decision-making module. One of the critical challenges for collaborative RL is the credit assignment problem, where a proper assignment of rewards to multiple agents interacting in the traffic scenario, considering all parameters and timing, turns out to be non-trivial. In order to address this challenge, we propose a novel potential-based reward-shaping approach inspired by counterfactual analysis for solving the credit-assignment problem. The evaluation in a simulated environment demonstrates the superiority of our proposed approach against other methods using local and global rewards.
Abstract（参考訳）: 自律走行車(AV)は、一般的な現実のケースでは極めてよく機能するが、予期せぬケースでは不合理な動作が重大な安全上の懸念を引き起こす。本稿では,av計画と意思決定モジュールのための挑戦的なテストケースを生成するための協調強化学習(rl)の概念を提案する。コラボレーティブrlの重要な課題の1つは、クレジット割り当て問題であり、すべてのパラメータとタイミングを考慮して、トラフィックシナリオで相互作用する複数のエージェントに対して適切な報酬の割り当てが非自明であることが判明した。この課題に対処するために,信用割り当て問題を解決するために,反事実分析に着想を得た,新たな可能性ベースの報酬形成手法を提案する。シミュレーション環境における評価は,局所的および大域的な報酬を用いた他の手法に対する提案手法の優位性を示す。

関連論文リスト

Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文参考訳（メタデータ） (2025-05-19T17:59:31Z)
Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments [78.15330971155778]
Posterior and Diversity Synergized Task Smpling (PDTS) は、高速かつ堅牢なシーケンシャルな意思決定を実現するための、実装が容易な方法である。 PDTSは、堅牢なアクティブタスクサンプリングの可能性を解き、挑戦的なタスクにおけるゼロショットおよび少数ショット適応ロバスト性を大幅に改善し、特定のシナリオ下での学習プロセスを加速する。
論文参考訳（メタデータ） (2025-04-27T07:27:17Z)
A Survey of Reinforcement Learning-Based Motion Planning for Autonomous Driving: Lessons Learned from a Driving Task Perspective [12.239468388345747]
自律運転(AD)における運動計画(MoP)課題に対処するための有望なアプローチとして強化学習(RL)が登場した。 RLとADの急速な進歩にもかかわらず、RLの設計プロセスの体系的な記述と解釈はまだ未開発である。この調査は、タスク固有の視点から学ぶことに焦点を当てた、RLベースのMoP for ADの包括的なレビューを提供する。
論文参考訳（メタデータ） (2025-03-31T01:31:14Z)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳（メタデータ） (2025-03-11T15:17:02Z)
Risk-Aware Driving Scenario Analysis with Large Language Models [7.093690352605479]
大規模言語モデル(LLM)は、微妙な文脈関係、推論、複雑な問題解決を捉えることができる。本稿では, LLM を利用して生成した運転シナリオのリスク認識分析を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-04T09:19:13Z)
Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。 IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文参考訳（メタデータ） (2024-11-15T15:18:57Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
Towards Interactive and Learnable Cooperative Driving Automation: a Large Language Model-Driven Decision-Making Framework [79.088116316919]
コネクテッド・オートモービルズ(CAV)は世界中の道路試験を開始したが、複雑なシナリオにおける安全性と効率性はまだ十分ではない。本稿では,対話型かつ学習可能なLLM駆動協調運転フレームワークCoDrivingLLMを提案する。
論文参考訳（メタデータ） (2024-09-19T14:36:00Z)
Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文参考訳（メタデータ） (2024-02-23T23:22:06Z)
Staged Reinforcement Learning for Complex Tasks through Decomposed Environments [4.883558259729863]
RL問題を実問題に近似する2つの方法について議論する。交通ジャンクションシミュレーションの文脈において、複雑なタスクを複数のサブタスクに分解できれば、これらのタスクを最初に解くのが有利であることを示す。多エージェントの観点から、我々は、CTDE(Centralized Training Decentralized Execution)と呼ばれる一般的なパラダイムの下で学んだ経験の活用を活用するトレーニング構造化機構を導入する。
論文参考訳（メタデータ） (2023-11-05T19:43:23Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Behaviour-Diverse Automatic Penetration Testing: A Curiosity-Driven Multi-Objective Deep Reinforcement Learning Approach [3.5071575478443435]
侵入テストは、実際のアクティブな敵をエミュレートすることで、ターゲットネットワークのセキュリティを評価する上で重要な役割を果たす。深層強化学習(Deep Reinforcement Learning)は,浸透テストのプロセスを自動化するための,有望なソリューションだと考えられている。我々は,チェビシェフ分解批判者に対して,侵入試験における異なる目的のバランスをとる多様な敵戦略を見出すことを提案する。
論文参考訳（メタデータ） (2022-02-22T02:34:16Z)
Dependability Analysis of Deep Reinforcement Learning based Robotics and Autonomous Systems [10.499662874457998]
深層強化学習(DRL)のブラックボックスの性質と不確実な展開環境は、その信頼性に新たな課題をもたらす。本稿では、時間論理における信頼性特性のセットを定義し、DRL駆動RASのリスク/障害のダイナミクスをモデル化するための離散時間マルコフ連鎖(DTMC)を構築する。実験の結果,提案手法は総合評価の枠組みとして有効であり,また,トレーニングにおいてトレードオフを必要とする可能性のある特性の相違を明らかにする。
論文参考訳（メタデータ） (2021-09-14T08:42:29Z)
Multimodal Safety-Critical Scenarios Generation for Decision-Making Algorithms Evaluation [23.43175124406634]
既存のニューラルネットワークベースの自律システムは、敵の攻撃に対して脆弱であることが示されている。意思決定アルゴリズムの評価のためのフローベースマルチモーダル安全クリティカルシナリオジェネレータを提案する。生成したトラフィックシナリオを用いて6つの強化学習アルゴリズムを評価し,その堅牢性に関する実証的な結論を提供する。
論文参考訳（メタデータ） (2020-09-16T15:16:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。