論文の概要: Human-compatible driving partners through data-regularized self-play reinforcement learning
- arxiv url: http://arxiv.org/abs/2403.19648v2
- Date: Sat, 22 Jun 2024 23:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:12:30.548158
- Title: Human-compatible driving partners through data-regularized self-play reinforcement learning
- Title(参考訳): データ正規化自己再生強化学習による人間互換運転パートナー
- Authors: Daphne Cornelisse, Eugene Vinitsky,
- Abstract要約: HR-PPO(Human-Regularized PPO)は、エージェントが人間の参照ポリシーから逸脱する小さなペナルティで自己プレイを通じて訓練されるマルチエージェントアルゴリズムである。
その結果,HR-PPOは93%,オフロード率3.5%,衝突率3%の目標達成に極めて有効であることがわかった。
- 参考スコア(独自算出の注目度): 3.9682126792844583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central challenge for autonomous vehicles is coordinating with humans. Therefore, incorporating realistic human agents is essential for scalable training and evaluation of autonomous driving systems in simulation. Simulation agents are typically developed by imitating large-scale, high-quality datasets of human driving. However, pure imitation learning agents empirically have high collision rates when executed in a multi-agent closed-loop setting. To build agents that are realistic and effective in closed-loop settings, we propose Human-Regularized PPO (HR-PPO), a multi-agent algorithm where agents are trained through self-play with a small penalty for deviating from a human reference policy. In contrast to prior work, our approach is RL-first and only uses 30 minutes of imperfect human demonstrations. We evaluate agents in a large set of multi-agent traffic scenes. Results show our HR-PPO agents are highly effective in achieving goals, with a success rate of 93%, an off-road rate of 3.5%, and a collision rate of 3%. At the same time, the agents drive in a human-like manner, as measured by their similarity to existing human driving logs. We also find that HR-PPO agents show considerable improvements on proxy measures for coordination with human driving, particularly in highly interactive scenarios. We open-source our code and trained agents at https://github.com/Emerge-Lab/nocturne_lab and provide demonstrations of agent behaviors at https://sites.google.com/view/driving-partners.
- Abstract(参考訳): 自動運転車における中心的な課題は、人間と協調することだ。
したがって、シミュレーションにおける自律運転システムのスケーラブルなトレーニングと評価には、現実的なヒューマンエージェントの導入が不可欠である。
シミュレーションエージェントは通常、人間の運転の大規模で高品質なデータセットを模倣することによって開発される。
しかし、純粋な模倣学習エージェントは、マルチエージェント閉ループ設定で実行される場合、経験的に高い衝突率を有する。
クローズドループ設定において現実的で効果的なエージェントを構築するために,エージェントが人間の参照ポリシーから逸脱する小さなペナルティで自己プレイによって訓練されるマルチエージェントアルゴリズムであるHuman-Regularized PPO(HR-PPO)を提案する。
従来の研究とは対照的に、我々のアプローチはRLファーストであり、不完全な人間のデモを30分しか使っていません。
エージェントを多エージェントの交通シーンで評価する。
その結果,HR-PPOは93%,オフロード率3.5%,衝突率3%の目標達成に極めて有効であることがわかった。
同時に、エージェントは既存の人間の運転ログと類似性によって測定されるように、人間のように運転する。
また、HR-PPOエージェントは、特に高度に対話的なシナリオにおいて、人間の運転と協調するためのプロキシ対策をかなり改善していることが判明した。
私たちはコードと訓練されたエージェントをhttps://github.com/Emerge-Lab/nocturne_labでオープンソース化し、https://sites.google.com/view/driving-partnersでエージェントの動作のデモを提供します。
関連論文リスト
- WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving [54.365702251769456]
我々は、駆動シーケンス当たり平均8.4エージェントのデータセットを提示する。
自律運転データセットの中で最大のエージェントと視点を提供するだけでなく、WHALESはエージェントの振る舞いを記録する。
エージェントスケジューリングタスクにおいて,エゴエージェントが複数の候補エージェントの1つを選択して協調する実験を行う。
論文 参考訳(メタデータ) (2024-11-20T14:12:34Z) - HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving [2.807187711407621]
本稿では,AIメンターをベースとした深層強化学習(HAIM-DRL)フレームワークとして,Human-in-the-loop強化学習法を提案する。
私たちはまず、AIメンター(HAIM)と呼ばれる人間の知性をAIに効果的に注入する革新的な学習パラダイムを紹介します。
このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能し、エージェントはトラフィックフローの障害を最小限に抑えるためにガイドされる。
論文 参考訳(メタデータ) (2024-01-06T08:30:14Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed
Multi-Agent Reinforcement Learning [57.24340061741223]
本稿では,高密度および不均一な交通シナリオにおける軌跡や意図を予測できる分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。
インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。
論文 参考訳(メタデータ) (2023-06-09T20:12:02Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - DDPG car-following model with real-world human driving experience in
CARLA [0.0]
そこで本研究では,現実世界の人間の運転から学習し,純粋なDRLエージェントよりも優れた性能を実現する2段階のDeep Reinforcement Learning(DRL)手法を提案する。
評価のために、提案した2段DRLエージェントと純粋なDRLエージェントを比較するために、異なる実世界の運転シナリオを設計した。
論文 参考訳(メタデータ) (2021-12-29T15:22:31Z) - Maximum Entropy Population Based Training for Zero-Shot Human-AI
Coordination [21.800115245671737]
本研究では,人間データを使用しない強化学習(RL)エージェントを訓練する際の課題について考察する。
我々は,多種多様なエージェントの学習を促進するために,集中型のエントロピー目標を導出する。
論文 参考訳(メタデータ) (2021-12-22T07:19:36Z) - Collaborating with Humans without Human Data [6.158826414652401]
我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。
私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。
新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
論文 参考訳(メタデータ) (2021-10-15T16:03:57Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。