論文の概要: Adaptive Agent Architecture for Real-time Human-Agent Teaming
- arxiv url: http://arxiv.org/abs/2103.04439v1
- Date: Sun, 7 Mar 2021 20:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:16:42.604600
- Title: Adaptive Agent Architecture for Real-time Human-Agent Teaming
- Title(参考訳): リアルタイム人間エージェントチームのための適応エージェントアーキテクチャ
- Authors: Tianwei Ni, Huao Li, Siddharth Agrawal, Suhas Raja, Fan Jia, Yikang
Gui, Dana Hughes, Michael Lewis, Katia Sycara
- Abstract要約: エージェントは人間の意図を推論し、警察を円滑な調整に適応させることが重要である。
ほとんどの文献は、学習された人間のモデルを参照するエージェントを構築している。
二者協調ゲームにおける人間モデルフリー設定における適応エージェントアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 3.284216428330814
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Teamwork is a set of interrelated reasoning, actions and behaviors of team
members that facilitate common objectives. Teamwork theory and experiments have
resulted in a set of states and processes for team effectiveness in both
human-human and agent-agent teams. However, human-agent teaming is less well
studied because it is so new and involves asymmetry in policy and intent not
present in human teams. To optimize team performance in human-agent teaming, it
is critical that agents infer human intent and adapt their polices for smooth
coordination. Most literature in human-agent teaming builds agents referencing
a learned human model. Though these agents are guaranteed to perform well with
the learned model, they lay heavy assumptions on human policy such as
optimality and consistency, which is unlikely in many real-world scenarios. In
this paper, we propose a novel adaptive agent architecture in human-model-free
setting on a two-player cooperative game, namely Team Space Fortress (TSF).
Previous human-human team research have shown complementary policies in TSF
game and diversity in human players' skill, which encourages us to relax the
assumptions on human policy. Therefore, we discard learning human models from
human data, and instead use an adaptation strategy on a pre-trained library of
exemplar policies composed of RL algorithms or rule-based methods with minimal
assumptions of human behavior. The adaptation strategy relies on a novel
similarity metric to infer human policy and then selects the most complementary
policy in our library to maximize the team performance. The adaptive agent
architecture can be deployed in real-time and generalize to any off-the-shelf
static agents. We conducted human-agent experiments to evaluate the proposed
adaptive agent framework, and demonstrated the suboptimality, diversity, and
adaptability of human policies in human-agent teams.
- Abstract(参考訳): チームワークは、共通の目的を促進するチームメンバの相互関係的な推論、行動、行動のセットです。
チームワーク理論と実験は、人間とエージェントエージェントの両方のチームの有効性のための一連の状態とプロセスをもたらしました。
しかし、人間とエージェントのチーム化は、非常に新しいものであり、人間のチームには存在しない方針や意図の非対称性が伴うため、あまり研究されていない。
人間エージェントチームにおけるチームパフォーマンスを最適化するには、エージェントが人間の意図を推測し、警察を円滑な調整に適応させることが重要です。
ほとんどの文献は、学習された人間のモデルを参照するエージェントを構築している。
これらのエージェントは学習されたモデルでうまく機能することが保証されているが、最適性や一貫性といった人間のポリシーに重きを置いている。
本稿では,TSF(Team Space Fortress)と呼ばれる2人プレイヤ協調ゲームにおいて,人間モデルフリー設定における新しい適応エージェントアーキテクチャを提案する。
これまでの人間と人間のチームの研究では、tsfゲームにおける相補的なポリシーと、プレイヤーのスキルの多様性が示されている。
したがって、私たちは人間のデータから人間モデルの学習を破棄し、RLアルゴリズムまたはルールベースの方法で構成された事前訓練された例ポリシーライブラリの適応戦略を使用して、人間の行動を最小に仮定します。
適応戦略は、人間のポリシーを推論するための新しい類似度メトリクスに依存し、チームのパフォーマンスを最大化するために、我々のライブラリで最も補完的なポリシーを選択します。
アダプティブエージェントアーキテクチャはリアルタイムでデプロイでき、任意のオフセットの静的エージェントに一般化できる。
提案する適応エージェントフレームワークを評価するために,人間エージェント実験を実施し,人間エージェントチームにおけるヒューマンポリシーの最適性,多様性,適応性について検証した。
関連論文リスト
- Learning to Cooperate with Humans using Generative Agents [40.605931138995714]
ゼロショットと人間を協調させる訓練エージェントは、マルチエージェント強化学習(MARL)における重要なミッションである
我々は,この課題に効果的に対処できる,人間のパートナーの生成モデルを示す。
潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-11-21T08:36:17Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Mixed-Initiative Human-Robot Teaming under Suboptimality with Online Bayesian Adaptation [0.6591036379613505]
我々は,最適人-エージェントチームの性能向上のための計算モデルと最適化手法を開発した。
我々は,ロボットが逐次意思決定ゲームにおいて,その支援に従おうとする人々の意思を推測できるオンラインベイズアプローチを採用する。
ユーザの好みやチームのパフォーマンスは,ロボットの介入スタイルによって明らかに異なります。
論文 参考訳(メタデータ) (2024-03-24T14:38:18Z) - Incorporating Human Flexibility through Reward Preferences in Human-AI Teaming [14.250120245287109]
我々は、人間-AI PbRL協調ゲームを開発し、RLエージェントが、作業目標と人間の協調行動への嗜好を引き出すために、人間-AI PbRL協調ゲームを開発する。
このゲーム定式化では、まず、人間が一定のポリシーに従うか、RLエージェントをオンザフライで適応するかに基づいて、チームのパフォーマンスを評価するために、ヒューマンフレキシビリティの概念を導入する。
私たちはこの2つの側面に沿った特別なケースを強調します。それは、特定オーケストレーションと呼ばれ、人間は柔軟で、エージェントは人間のポリシーを完全にアクセスできます。
論文 参考訳(メタデータ) (2023-12-21T20:48:15Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Maximum Entropy Population Based Training for Zero-Shot Human-AI
Coordination [21.800115245671737]
本研究では,人間データを使用しない強化学習(RL)エージェントを訓練する際の課題について考察する。
我々は,多種多様なエージェントの学習を促進するために,集中型のエントロピー目標を導出する。
論文 参考訳(メタデータ) (2021-12-22T07:19:36Z) - Collaborating with Humans without Human Data [6.158826414652401]
我々は、人間のデータを用いずに、人間のパートナーとうまく協力するエージェントを訓練する方法の問題点について研究する。
私たちは、セルフプレイエージェントとその過去のチェックポイントに対する最も良い反応として、エージェントパートナーを訓練します。
新規なエージェントとヒトのパートナーと組み合わせた場合, FCPエージェントはSP, PP, BCPよりも有意に高いスコアを示した。
論文 参考訳(メタデータ) (2021-10-15T16:03:57Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Cooperative Inverse Reinforcement Learning [64.60722062217417]
協調強化学習(CIRL)としての値アライメント問題の形式的定義を提案する。
CIRL問題は、人間とロボットの2人のエージェントによる協調的部分情報ゲームであり、どちらも人間の報酬関数に従って報酬を受けるが、ロボットは当初それが何であるかを知らない。
古典的なIRLとは対照的に、人間は孤立して最適な行動をとると仮定されるが、最適なCIRLソリューションは活発な教育、活発な学習、コミュニケーション行動などの行動を生み出す。
論文 参考訳(メタデータ) (2016-06-09T22:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。