論文の概要: Modeling Latent Partner Strategies for Adaptive Zero-Shot Human-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2507.05244v1
- Date: Mon, 07 Jul 2025 17:53:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.554331
- Title: Modeling Latent Partner Strategies for Adaptive Zero-Shot Human-Agent Collaboration
- Title(参考訳): 適応型ゼロショットヒューマンエージェント協調のための潜在パートナー戦略のモデル化
- Authors: Benjamin Li, Shuyang Shi, Lucia Romero, Huao Li, Yaqi Xie, Woojun Kim, Stefanos Nikolaidis, Michael Lewis, Katia Sycara, Simon Stepputtis,
- Abstract要約: 我々は、様々なパートナー戦略を表現、分類、適応する戦略条件付き協調作業フレームワークであるTALENTSを紹介した。
提案手法は変分オートエンコーダを用いて軌道データから潜在戦略空間を学習する。
未確認のパートナーに適応するために、我々は固定共有後悔最小化アルゴリズムを利用する。
- 参考スコア(独自算出の注目度): 8.829018359718086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In collaborative tasks, being able to adapt to your teammates is a necessary requirement for success. When teammates are heterogeneous, such as in human-agent teams, agents need to be able to observe, recognize, and adapt to their human partners in real time. This becomes particularly challenging in tasks with time pressure and complex strategic spaces where the dynamics can change rapidly. In this work, we introduce TALENTS, a strategy-conditioned cooperator framework that learns to represent, categorize, and adapt to a range of partner strategies, enabling ad-hoc teamwork. Our approach utilizes a variational autoencoder to learn a latent strategy space from trajectory data. This latent space represents the underlying strategies that agents employ. Subsequently, the system identifies different types of strategy by clustering the data. Finally, a cooperator agent is trained to generate partners for each type of strategy, conditioned on these clusters. In order to adapt to previously unseen partners, we leverage a fixed-share regret minimization algorithm that infers and adjusts the estimated partner strategy dynamically. We assess our approach in a customized version of the Overcooked environment, posing a challenging cooperative cooking task that demands strong coordination across a wide range of possible strategies. Using an online user study, we show that our agent outperforms current baselines when working with unfamiliar human partners.
- Abstract(参考訳): 共同作業では、チームメイトに適応できることが成功に必要な要件です。
人間エージェントチームのようなチームメイトが異質である場合、エージェントは人間のパートナーをリアルタイムで観察し、認識し、適応しなければなりません。
これは、時間的プレッシャーと、ダイナミクスが急速に変化する複雑な戦略空間を持つタスクにおいて特に困難になる。
本研究では,様々なパートナー戦略を表現,分類,適応し,アドホックなチームワークを可能にする戦略条件付き協調作業フレームワークであるTALENTSを紹介する。
提案手法は変分オートエンコーダを用いて軌道データから潜在戦略空間を学習する。
この潜在空間は、エージェントが採用する基盤となる戦略を表している。
その後、システムはデータをクラスタリングすることで、異なるタイプの戦略を特定する。
最後に、コオペレーターエージェントがトレーニングされ、これらのクラスタに条件付きで、各タイプの戦略のパートナを生成する。
未確認のパートナーに適応するために、推定パートナー戦略を動的に推論・調整する固定共有後悔最小化アルゴリズムを利用する。
我々は,オーバークッキング環境をカスタマイズした形で評価し,多種多様な戦略に強い協調を要求できる,困難な協調調理課題を呈する。
オンラインユーザスタディを用いて、我々のエージェントは、馴染みのない人間パートナーとの作業において、現在のベースラインを上回っていることを示す。
関連論文リスト
- ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Coordination with Humans via Strategy Matching [5.072077366588174]
協調作業を行う人間と人間のチームを観察することにより、利用可能なタスク補完戦略を自律的に認識するアルゴリズムを提案する。
隠れマルコフモデルを使って、チームアクションを低次元の表現に変換することで、事前の知識なしに戦略を識別できます。
ロボットポリシーは、未確認のパートナーのタスク戦略に適応するMixture-of-Expertsモデルを構築するための、識別された戦略のそれぞれに基づいて学習される。
論文 参考訳(メタデータ) (2022-10-27T01:00:50Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Behaviour-conditioned policies for cooperative reinforcement learning
tasks [41.74498230885008]
現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
深層強化学習モデルは、必要な機能を提供するためにトレーニングすることができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
本研究では,行動パターンの異なるエージェントの集団を合成的に生成する手法を提案する。
また、生成されたデータを効率的に利用し、メタ学習能力を得ることができるエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-04T09:16:41Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z) - Towards Open Ad Hoc Teamwork Using Graph-based Policy Learning [11.480994804659908]
我々は、さまざまなチーム構成の下でエージェントモデルと共同アクション値モデルを学ぶために、グラフニューラルネットワーク上に構築する。
私たちは、我々のアプローチが、他のエージェントが学習者に与える影響をうまくモデル化し、動的なチーム構成にしっかりと適応するポリシーを導いたことを実証的に実証します。
論文 参考訳(メタデータ) (2020-06-18T10:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。