論文の概要: Adaptively Coordinating with Novel Partners via Learned Latent Strategies
- arxiv url: http://arxiv.org/abs/2511.12754v1
- Date: Sun, 16 Nov 2025 19:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.520556
- Title: Adaptively Coordinating with Novel Partners via Learned Latent Strategies
- Title(参考訳): 学習した潜在戦略による新規パートナーの適応的調整
- Authors: Benjamin Li, Shuyang Shi, Lucia Romero, Huao Li, Yaqi Xie, Woojun Kim, Stefanos Nikolaidis, Michael Lewis, Katia Sycara, Simon Stepputtis,
- Abstract要約: 我々は、リアルタイムに幅広いパートナー戦略を表現、分類、適応する戦略条件付き協調作業フレームワークを導入する。
提案手法は,エージェント軌道データから潜在戦略空間を学習するために,変分オートエンコーダを用いて戦略を符号化する。
我々は,インタラクション中のパートナーの戦略推定を動的に推論し,調整する固定共有後悔最小化アルゴリズムを活用する。
- 参考スコア(独自算出の注目度): 19.014669675808133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptation is the cornerstone of effective collaboration among heterogeneous team members. In human-agent teams, artificial agents need to adapt to their human partners in real time, as individuals often have unique preferences and policies that may change dynamically throughout interactions. This becomes particularly challenging in tasks with time pressure and complex strategic spaces, where identifying partner behaviors and selecting suitable responses is difficult. In this work, we introduce a strategy-conditioned cooperator framework that learns to represent, categorize, and adapt to a broad range of potential partner strategies in real-time. Our approach encodes strategies with a variational autoencoder to learn a latent strategy space from agent trajectory data, identifies distinct strategy types through clustering, and trains a cooperator agent conditioned on these clusters by generating partners of each strategy type. For online adaptation to novel partners, we leverage a fixed-share regret minimization algorithm that dynamically infers and adjusts the partner's strategy estimation during interaction. We evaluate our method in a modified version of the Overcooked domain, a complex collaborative cooking environment that requires effective coordination among two players with a diverse potential strategy space. Through these experiments and an online user study, we demonstrate that our proposed agent achieves state of the art performance compared to existing baselines when paired with novel human, and agent teammates.
- Abstract(参考訳): 適応は、異質なチームメンバー間の効果的なコラボレーションの基盤です。
人間エージェントチームでは、人間エージェントがリアルタイムで人間のパートナーに適応する必要がある。
これは、パートナーの振る舞いを特定し、適切な応答を選択するという、時間的プレッシャーと複雑な戦略空間を持つタスクでは特に困難になる。
本研究では、リアルタイムに幅広いパートナー戦略を表わし、分類し、適応する戦略条件付き協調作業フレームワークを導入する。
提案手法では,エージェントトラジェクトリデータから潜在戦略空間を学習し,クラスタリングによって異なる戦略タイプを識別し,各戦略タイプのパートナーを生成することで,これらのクラスタ上で条件付けられた協調エージェントを訓練する。
新規パートナーへのオンライン適応には、インタラクション中のパートナーの戦略推定を動的に推論し調整する固定共有後悔最小化アルゴリズムを利用する。
提案手法を,多種多様な戦略空間を持つ2人のプレイヤー間で効果的な調整を必要とする複雑な協調調理環境であるOvercooked Domainの修正版で評価する。
これらの実験とオンラインユーザスタディを通じて,提案するエージェントは,新しい人間とエージェントのチームメイトとの組み合わせによる既存のベースラインと比較して,最先端のパフォーマンスを達成できることを実証した。
関連論文リスト
- Modeling Latent Partner Strategies for Adaptive Zero-Shot Human-Agent Collaboration [8.829018359718086]
我々は、様々なパートナー戦略を表現、分類、適応する戦略条件付き協調作業フレームワークであるTALENTSを紹介した。
提案手法は変分オートエンコーダを用いて軌道データから潜在戦略空間を学習する。
未確認のパートナーに適応するために、我々は固定共有後悔最小化アルゴリズムを利用する。
論文 参考訳(メタデータ) (2025-07-07T17:53:13Z) - CooT: Learning to Coordinate In-Context with Coordination Transformers [10.888155149916967]
コーディネーション・トランスフォーマー(Coordination Transformers, Coot)は、目に見えないパートナーに迅速に適応する、コンテキスト内協調フレームワークである。
cootは、人口ベースアプローチ、勾配ベースの微調整、メタRLにインスパイアされたコンテキスト適応方法など、ベースラインを一貫して上回る。
対照的に、cootは安定かつ迅速なインコンテクスト適応を実現し、人間の評価において最も効果的なコラボレータである。
論文 参考訳(メタデータ) (2025-06-30T06:45:39Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。