論文の概要: Maximum Entropy Population Based Training for Zero-Shot Human-AI
Coordination
- arxiv url: http://arxiv.org/abs/2112.11701v1
- Date: Wed, 22 Dec 2021 07:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 15:05:58.548384
- Title: Maximum Entropy Population Based Training for Zero-Shot Human-AI
Coordination
- Title(参考訳): 最大エントロピー人口に基づくゼロショットヒューマンAIコーディネーションのためのトレーニング
- Authors: Rui Zhao, Jinming Song, Hu Haifeng, Yang Gao, Yi Wu, Zhongqian Sun,
Yang Wei
- Abstract要約: 本研究では,人間データを使用しない強化学習(RL)エージェントを訓練する際の課題について考察する。
我々は,多種多様なエージェントの学習を促進するために,集中型のエントロピー目標を導出する。
- 参考スコア(独自算出の注目度): 21.800115245671737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An AI agent should be able to coordinate with humans to solve tasks. We
consider the problem of training a Reinforcement Learning (RL) agent without
using any human data, i.e., in a zero-shot setting, to make it capable of
collaborating with humans. Standard RL agents learn through self-play.
Unfortunately, these agents only know how to collaborate with themselves and
normally do not perform well with unseen partners, such as humans. The
methodology of how to train a robust agent in a zero-shot fashion is still
subject to research. Motivated from the maximum entropy RL, we derive a
centralized population entropy objective to facilitate learning of a diverse
population of agents, which is later used to train a robust agent to
collaborate with unseen partners. The proposed method shows its effectiveness
compared to baseline methods, including self-play PPO, the standard
Population-Based Training (PBT), and trajectory diversity-based PBT, in the
popular Overcooked game environment. We also conduct online experiments with
real humans and further demonstrate the efficacy of the method in the real
world. A supplementary video showing experimental results is available at
https://youtu.be/Xh-FKD0AAKE.
- Abstract(参考訳): AIエージェントは、タスクを解決するために人間と調整できる必要があります。
我々は、人間データ、すなわちゼロショット設定を使わずに強化学習(RL)エージェントを訓練し、人間との共同作業を可能にするという課題を考察する。
標準RLエージェントは、セルフプレイを通じて学習する。
残念ながら、これらのエージェントは自分自身と協力する方法を知っていて、通常、人間のような目に見えないパートナーとうまく機能しない。
ゼロショット方式で堅牢なエージェントを訓練する方法は、依然として研究の対象となっている。
最大エントロピーRLからモチベーションを得て,多種多様なエージェントの学習を促進するために,集中型エントロピー目標を導出する。
提案手法は,一般的なオーバークッキングゲーム環境において,自己再生型PPO,標準人口ベーストレーニング(PBT),トラジェクティブ多様性ベースのPBTなどのベースライン手法と比較して有効性を示す。
また,実人とのオンライン実験を行い,実世界における手法の有効性をさらに実証する。
実験結果を示す追加ビデオはhttps://youtu.be/xh-fkd0aakeで公開されている。
関連論文リスト
- Learning to Cooperate with Humans using Generative Agents [40.605931138995714]
ゼロショットと人間を協調させる訓練エージェントは、マルチエージェント強化学習(MARL)における重要なミッションである
我々は,この課題に効果的に対処できる,人間のパートナーの生成モデルを示す。
潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-11-21T08:36:17Z) - Human-compatible driving partners through data-regularized self-play reinforcement learning [3.9682126792844583]
HR-PPO(Human-Regularized PPO)は、エージェントが人間の参照ポリシーから逸脱する小さなペナルティで自己プレイを通じて訓練されるマルチエージェントアルゴリズムである。
その結果,HR-PPOは93%,オフロード率3.5%,衝突率3%の目標達成に極めて有効であることがわかった。
論文 参考訳(メタデータ) (2024-03-28T17:56:56Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Human-AI Coordination via Human-Regularized Search and Learning [33.95649252941375]
我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T03:46:12Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Collaborating with Humans without Human Data [6.158826414652401]
我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。
私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。
新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
論文 参考訳(メタデータ) (2021-10-15T16:03:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。