論文の概要: Human-AI Coordination via Human-Regularized Search and Learning
- arxiv url: http://arxiv.org/abs/2210.05125v1
- Date: Tue, 11 Oct 2022 03:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:53:59.995890
- Title: Human-AI Coordination via Human-Regularized Search and Learning
- Title(参考訳): 正規化検索と学習によるAI協調
- Authors: Hengyuan Hu, David J Wu, Adam Lerer, Jakob Foerster, Noam Brown
- Abstract要約: 我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 33.95649252941375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of making AI agents that collaborate well with humans
in partially observable fully cooperative environments given datasets of human
behavior. Inspired by piKL, a human-data-regularized search method that
improves upon a behavioral cloning policy without diverging far away from it,
we develop a three-step algorithm that achieve strong performance in
coordinating with real humans in the Hanabi benchmark. We first use a
regularized search algorithm and behavioral cloning to produce a better human
model that captures diverse skill levels. Then, we integrate the policy
regularization idea into reinforcement learning to train a human-like best
response to the human model. Finally, we apply regularized search on top of the
best response policy at test time to handle out-of-distribution challenges when
playing with humans. We evaluate our method in two large scale experiments with
humans. First, we show that our method outperforms experts when playing with a
group of diverse human players in ad-hoc teams. Second, we show that our method
beats a vanilla best response to behavioral cloning baseline by having experts
play repeatedly with the two agents.
- Abstract(参考訳): 我々は、人間の行動のデータセットを与えられた部分的に観察可能な完全に協調した環境で、人間とうまく協力するAIエージェントを作ることの問題を考察する。
人間のデータ規則化検索手法である piKL に着想を得た結果,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を実現する3段階のアルゴリズムを開発した。
まず、正規化探索アルゴリズムと行動クローニングを用いて、多様なスキルレベルをキャプチャするより良い人間モデルを作成する。
そして,政策正規化の考え方を強化学習に統合し,人間のモデルに対する人間的な最良の反応を訓練する。
最後に,人間と遊べる際の配布外問題に対処するために,テスト時のベストレスポンスポリシーの上に正規化検索を適用した。
本手法を2つの大規模実験で評価した。
まず,本手法は,アドホックチームで多種多様な人間プレイヤーのグループと対戦する際の,専門家よりも優れることを示す。
第2に,提案手法は,専門家が2つのエージェントと繰り返し演奏させることで,行動クローンのベースラインに対するバニラのベスト応答を上回ることを示す。
関連論文リスト
- Learning to Cooperate with Humans using Generative Agents [40.605931138995714]
ゼロショットと人間を協調させる訓練エージェントは、マルチエージェント強化学習(MARL)における重要なミッションである
我々は,この課題に効果的に対処できる,人間のパートナーの生成モデルを示す。
潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-11-21T08:36:17Z) - Incorporating Human Flexibility through Reward Preferences in Human-AI Teaming [14.250120245287109]
我々は、人間-AI PbRL協調ゲームを開発し、RLエージェントが、作業目標と人間の協調行動への嗜好を引き出すために、人間-AI PbRL協調ゲームを開発する。
このゲーム定式化では、まず、人間が一定のポリシーに従うか、RLエージェントをオンザフライで適応するかに基づいて、チームのパフォーマンスを評価するために、ヒューマンフレキシビリティの概念を導入する。
私たちはこの2つの側面に沿った特別なケースを強調します。それは、特定オーケストレーションと呼ばれ、人間は柔軟で、エージェントは人間のポリシーを完全にアクセスできます。
論文 参考訳(メタデータ) (2023-12-21T20:48:15Z) - Language Instructed Reinforcement Learning for Human-AI Coordination [23.694362407434753]
InstructRLという新しいフレームワークを提案し、自然言語でAIパートナーにどのような戦略を期待するかを、人間が指定できるようにする。
InstructRLは,概念実証環境とハナビベンチマークの課題において,与えられた指示を満足する人間的なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-04-13T04:47:31Z) - BO-Muse: A human expert and AI teaming framework for accelerated
experimental design [58.61002520273518]
我々のアルゴリズムは、人間の専門家が実験プロセスでリードすることを可能にする。
我々のアルゴリズムは、AIや人間よりも高速に、サブ線形に収束することを示す。
論文 参考訳(メタデータ) (2023-03-03T02:56:05Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Maximum Entropy Population Based Training for Zero-Shot Human-AI
Coordination [21.800115245671737]
本研究では,人間データを使用しない強化学習(RL)エージェントを訓練する際の課題について考察する。
我々は,多種多様なエージェントの学習を促進するために,集中型のエントロピー目標を導出する。
論文 参考訳(メタデータ) (2021-12-22T07:19:36Z) - Modeling Strong and Human-Like Gameplay with KL-Regularized Search [64.24339197581769]
我々は,多エージェント意思決定問題において,強いが人間的な政策を構築するという課題を考察する。
模倣学習は人間の行動を予測するのに効果的であるが、熟練した人間の強さと一致しない可能性がある。
チェスと囲碁において、モンテカルロ木探索を適用して、KLの分岐に基づく探索ポリシーを模倣学習ポリシーから規則化することで、人間の予測精度が高く、模倣ポリシーよりも強いポリシーを生成することを示す。
論文 参考訳(メタデータ) (2021-12-14T16:52:49Z) - Collaborating with Humans without Human Data [6.158826414652401]
我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。
私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。
新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
論文 参考訳(メタデータ) (2021-10-15T16:03:57Z) - Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration [51.268988527778276]
本研究では,人間とロボットの協調実験から人間とロボットの協調政策を学習する手法を提案する。
本手法は対話型学習プロセスにおけるヒューマンポリシーとロボットポリシーを協調的に最適化する。
論文 参考訳(メタデータ) (2021-08-13T03:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。