論文の概要: Collaborating with Humans without Human Data
- arxiv url: http://arxiv.org/abs/2110.08176v1
- Date: Fri, 15 Oct 2021 16:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 15:16:01.107230
- Title: Collaborating with Humans without Human Data
- Title(参考訳): 人間データのない人とのコラボレーション
- Authors: DJ Strouse, Kevin R. McKee, Matt Botvinick, Edward Hughes, Richard
Everett
- Abstract要約: 我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。
私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。
新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
- 参考スコア(独自算出の注目度): 6.158826414652401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborating with humans requires rapidly adapting to their individual
strengths, weaknesses, and preferences. Unfortunately, most standard
multi-agent reinforcement learning techniques, such as self-play (SP) or
population play (PP), produce agents that overfit to their training partners
and do not generalize well to humans. Alternatively, researchers can collect
human data, train a human model using behavioral cloning, and then use that
model to train "human-aware" agents ("behavioral cloning play", or BCP). While
such an approach can improve the generalization of agents to new human
co-players, it involves the onerous and expensive step of collecting large
amounts of human data first. Here, we study the problem of how to train agents
that collaborate well with human partners without using human data. We argue
that the crux of the problem is to produce a diverse set of training partners.
Drawing inspiration from successful multi-agent approaches in competitive
domains, we find that a surprisingly simple approach is highly effective. We
train our agent partner as the best response to a population of self-play
agents and their past checkpoints taken throughout training, a method we call
Fictitious Co-Play (FCP). Our experiments focus on a two-player collaborative
cooking simulator that has recently been proposed as a challenge problem for
coordination with humans. We find that FCP agents score significantly higher
than SP, PP, and BCP when paired with novel agent and human partners.
Furthermore, humans also report a strong subjective preference to partnering
with FCP agents over all baselines.
- Abstract(参考訳): 人間とのコラボレーションには、個々の強み、弱み、選好に迅速に適応する必要がある。
残念なことに、セルフプレイ(SP)やマスプレイ(PP)のような標準的なマルチエージェント強化学習技術は、トレーニングパートナーに過度に適合し、人間にはうまく一般化しないエージェントを生成する。
あるいは、研究者は人間のデータを収集し、行動のクローンを使って人間のモデルを訓練し、そのモデルを使って「人間を認識」するエージェントを訓練することができる(behavioral clone play、bcp)。
このようなアプローチは、新しい人間の共同プレイヤーへのエージェントの一般化を改善できるが、まずは大量の人間データを収集する単発で高価なステップが伴う。
本稿では,人間データを用いずに,人間パートナーとうまく連携するエージェントの育成方法について検討する。
問題の本質は、さまざまなトレーニングパートナを生み出すことだ、と私たちは主張しています。
競合領域におけるマルチエージェントアプローチの成功から着想を得た結果,驚くほど単純なアプローチが極めて有効であることが判明した。
われわれはエージェントパートナーを、トレーニングを通じて取られたセルフプレイエージェントの集団と過去のチェックポイントに対する最良の対応として訓練する。
近年,人間との協調の課題として提案されている2人共同調理シミュレータに着目した実験を行った。
FCPはSP,PP,BCPよりも,新規なエージェントとヒトのパートナーとの組み合わせで有意に高いスコアを示した。
さらに、人間は全てのベースラインでFCPエージェントと提携することに対して強い主観的嗜好を報告している。
関連論文リスト
- Learning to Cooperate with Humans using Generative Agents [40.605931138995714]
ゼロショットと人間を協調させる訓練エージェントは、マルチエージェント強化学習(MARL)における重要なミッションである
我々は,この課題に効果的に対処できる,人間のパートナーの生成モデルを示す。
潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-11-21T08:36:17Z) - Incorporating Human Flexibility through Reward Preferences in Human-AI Teaming [14.250120245287109]
我々は、人間-AI PbRL協調ゲームを開発し、RLエージェントが、作業目標と人間の協調行動への嗜好を引き出すために、人間-AI PbRL協調ゲームを開発する。
このゲーム定式化では、まず、人間が一定のポリシーに従うか、RLエージェントをオンザフライで適応するかに基づいて、チームのパフォーマンスを評価するために、ヒューマンフレキシビリティの概念を導入する。
私たちはこの2つの側面に沿った特別なケースを強調します。それは、特定オーケストレーションと呼ばれ、人間は柔軟で、エージェントは人間のポリシーを完全にアクセスできます。
論文 参考訳(メタデータ) (2023-12-21T20:48:15Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Human-AI Coordination via Human-Regularized Search and Learning [33.95649252941375]
我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T03:46:12Z) - Maximum Entropy Population Based Training for Zero-Shot Human-AI
Coordination [21.800115245671737]
本研究では,人間データを使用しない強化学習(RL)エージェントを訓練する際の課題について考察する。
我々は,多種多様なエージェントの学習を促進するために,集中型のエントロピー目標を導出する。
論文 参考訳(メタデータ) (2021-12-22T07:19:36Z) - Skill Preferences: Learning to Extract and Execute Robotic Skills from
Human Feedback [82.96694147237113]
Skill Preferencesは、人間の好みよりもモデルを学習し、オフラインデータから人間に沿ったスキルを抽出するアルゴリズムである。
SkiPは複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットで実現できることを示す。
論文 参考訳(メタデータ) (2021-08-11T18:04:08Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Adaptive Agent Architecture for Real-time Human-Agent Teaming [3.284216428330814]
エージェントは人間の意図を推論し、警察を円滑な調整に適応させることが重要である。
ほとんどの文献は、学習された人間のモデルを参照するエージェントを構築している。
二者協調ゲームにおける人間モデルフリー設定における適応エージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-07T20:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。