論文の概要: Learning to Cooperate with Humans using Generative Agents
- arxiv url: http://arxiv.org/abs/2411.13934v1
- Date: Thu, 21 Nov 2024 08:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:52.330699
- Title: Learning to Cooperate with Humans using Generative Agents
- Title(参考訳): 生成エージェントを用いた人間との協調学習
- Authors: Yancheng Liang, Daphne Chen, Abhishek Gupta, Simon S. Du, Natasha Jaques,
- Abstract要約: ゼロショットと人間を協調させる訓練エージェントは、マルチエージェント強化学習(MARL)における重要なミッションである
我々は,この課題に効果的に対処できる,人間のパートナーの生成モデルを示す。
潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
- 参考スコア(独自算出の注目度): 40.605931138995714
- License:
- Abstract: Training agents that can coordinate zero-shot with humans is a key mission in multi-agent reinforcement learning (MARL). Current algorithms focus on training simulated human partner policies which are then used to train a Cooperator agent. The simulated human is produced either through behavior cloning over a dataset of human cooperation behavior, or by using MARL to create a population of simulated agents. However, these approaches often struggle to produce a Cooperator that can coordinate well with real humans, since the simulated humans fail to cover the diverse strategies and styles employed by people in the real world. We show \emph{learning a generative model of human partners} can effectively address this issue. Our model learns a latent variable representation of the human that can be regarded as encoding the human's unique strategy, intention, experience, or style. This generative model can be flexibly trained from any (human or neural policy) agent interaction data. By sampling from the latent space, we can use the generative model to produce different partners to train Cooperator agents. We evaluate our method -- \textbf{G}enerative \textbf{A}gent \textbf{M}odeling for \textbf{M}ulti-agent \textbf{A}daptation (GAMMA) -- on Overcooked, a challenging cooperative cooking game that has become a standard benchmark for zero-shot coordination. We conduct an evaluation with real human teammates, and the results show that GAMMA consistently improves performance, whether the generative model is trained on simulated populations or human datasets. Further, we propose a method for posterior sampling from the generative model that is biased towards the human data, enabling us to efficiently improve performance with only a small amount of expensive human interaction data.
- Abstract(参考訳): ゼロショットを人間と調整できる訓練エージェントは、マルチエージェント強化学習(MARL)において重要なミッションである。
現在のアルゴリズムでは、シミュレーションされたヒューマンパートナーポリシーのトレーニングに重点を置いており、これがコラボレータエージェントのトレーニングに使用される。
シミュレーションされたヒトは、人間の協調行動のデータセット上での行動クローニングや、MARLを用いてシミュレーションされたエージェントの集団を作成することによって生成される。
しかしながら、これらのアプローチは、シミュレーションされた人間が現実世界の人々が採用する多様な戦略やスタイルをカバーできないため、実際の人間とうまく協調できる協力者を生み出すのに苦労することが多い。
我々は,「emph{learning a generative model of human partner」がこの問題に効果的に対処できることを示した。
我々のモデルは、人間のユニークな戦略、意図、経験、スタイルを符号化すると考えられる人間の潜在変数表現を学習する。
この生成モデルは、任意の(人間または神経ポリシー)エージェントインタラクションデータから柔軟に訓練することができる。
潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
ゼロショットコーディネーションの標準ベンチマークとなったOvercooked上で,本手法の評価を行った。
実人のチームメイトによる評価を行い, GAMMAは, シミュレーションされた個体群や人的データセットに基づいて生成モデルを訓練しても, 常に性能を向上することを示した。
また,人体データに偏りのある生成モデルから後方サンプリングを行う手法を提案する。
関連論文リスト
- Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Optimal Behavior Prior: Data-Efficient Human Models for Improved
Human-AI Collaboration [0.5524804393257919]
人間のモデルに最適な振る舞いを先行して使用すると、これらのモデルの方がはるかにデータ効率が良くなることを示す。
また、これらの改良された人間モデルを使用することで、人間とAIのコラボレーションのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-11-03T06:10:22Z) - It Takes Two: Learning to Plan for Human-Robot Cooperative Carrying [0.6981715773998527]
本研究では,協調型ロボットチームにおけるテーブルキャリング作業における現実的な動作計画の予測手法を提案する。
変動リカレントニューラルネットワーク(VRNN)を用いて、時間とともに人間のロボットチームの軌道の変動をモデル化する。
本モデルでは, ベースライン型集中型サンプリングベースプランナに比べて, より人間的な動きを生成できることを示す。
論文 参考訳(メタデータ) (2022-09-26T17:59:23Z) - Maximum Entropy Population Based Training for Zero-Shot Human-AI
Coordination [21.800115245671737]
本研究では,人間データを使用しない強化学習(RL)エージェントを訓練する際の課題について考察する。
我々は,多種多様なエージェントの学習を促進するために,集中型のエントロピー目標を導出する。
論文 参考訳(メタデータ) (2021-12-22T07:19:36Z) - Collaborating with Humans without Human Data [6.158826414652401]
我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。
私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。
新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
論文 参考訳(メタデータ) (2021-10-15T16:03:57Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。