論文の概要: Partner-Aware Hierarchical Skill Discovery for Robust Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2605.24352v1
- Date: Sat, 23 May 2026 02:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.947397
- Title: Partner-Aware Hierarchical Skill Discovery for Robust Human-AI Collaboration
- Title(参考訳): ロバストな人間-AIコラボレーションのためのパートナー対応階層的スキル発見
- Authors: Adnan Ahmad, Bahareh Nakisa, Mohammad Naim Rastgoo,
- Abstract要約: マルチエージェントのコラボレーション、特に人間とAIのコラボレーションでは、多様な動的な振る舞いを持つ新しいパートナーに適応できるエージェントが必要である。
DHRLフレームワークであるPartner-Aware Skill Discovery (PASD)を導入する。
PASDは、パートナーのインタラクションから生まれるパターンをキャプチャし、類似のパートナ間でスキル表現を整合させ、多様な戦略間で差別性を維持するために、対照的な本質的な報酬を導入する。
- 参考スコア(独自算出の注目度): 1.4255659581428333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent collaboration, especially in human-AI teaming, requires agents that can adapt to novel partners with diverse and dynamic behaviors. Conventional Deep Hierarchical Reinforcement Learning (DHRL) methods focus on agent-centric rewards and overlook partner behavior, leading to shortcut learning, where skills exploit spurious information instead of adapting to partners' dynamic behaviors. This limitation undermines agents' ability to adapt and coordinate effectively with novel partners. We introduce Partner-Aware Skill Discovery (PASD), a DHRL framework that learns skills conditioned on partner behavior. PASD introduces a contrastive intrinsic reward to capture patterns emerging from partner interactions, aligning skill representations across similar partners while maintaining discriminability across diverse strategies. By structuring the skill space based on partner interactions, this approach mitigates shortcut learning and promotes behavioral consistency, enabling robust and adaptive coordination. We extensively evaluate PASD in the Overcooked-AI benchmark with a diverse population of partners characterized by varying skill levels and play styles. We further evaluate the approach with human proxy models trained from human-human gameplay trajectories. PASD consistently outperforms existing population-based and hierarchical baselines, demonstrating transferable skill learning that generalizes across a wide range of partner behaviors. Analysis of learned skill representations shows that PASD adapts effectively to diverse partner behaviors, highlighting its robustness in human-AI collaboration.
- Abstract(参考訳): マルチエージェントのコラボレーション、特に人間とAIのコラボレーションでは、多様な動的な振る舞いを持つ新しいパートナーに適応できるエージェントが必要である。
従来のDeep Hierarchical Reinforcement Learning (DHRL) 手法はエージェント中心の報酬に焦点をあて、パートナーの振る舞いを見落とし、パートナーの動的な振る舞いに適応するのではなく、刺激的な情報を活用できるショートカット学習に繋がる。
この制限は、新しいパートナーと効果的に適応し協調するエージェントの能力を損なう。
DHRLフレームワークであるPartner-Aware Skill Discovery (PASD)を導入する。
PASDは、パートナーのインタラクションから生まれるパターンをキャプチャし、類似のパートナ間でスキル表現を整合させ、多様な戦略間で差別性を維持するために、対照的な本質的な報酬を導入する。
パートナーのインタラクションに基づいてスキル空間を構築することにより、ショートカット学習を緩和し、行動整合性を促進し、堅牢で適応的な調整を可能にする。
我々は,様々なスキルレベルとプレースタイルを特徴とする多様なパートナによるOvercooked-AIベンチマークにおいて,PASDを広範囲に評価した。
人間のゲームプレイトラジェクトリからトレーニングされたヒューマンプロキシモデルによるアプローチをさらに評価する。
PASDは、既存の人口ベースと階層ベースラインを一貫して上回り、幅広いパートナー行動にまたがって一般化する、移行可能なスキル学習を示す。
学習したスキル表現の分析は、PASDが多様なパートナー行動に効果的に適応し、人間とAIのコラボレーションにおける堅牢性を強調していることを示している。
関連論文リスト
- Adaptive Human-AI Coordination via Hierarchical Action Disentanglement [1.4255659581428333]
人間とAIのコラボレーションには、多様なパートナーの行動やスキルレベルに適応できるエージェントが必要です。
Intrinsic Action Disentanglement (IAD) は階層的な強化学習フレームワークであり、ハイレベルな潜伏スキルを前提とした、パートナー対応の低レベルアクションシーケンスを学習する。
我々は,複数のレイアウトと多様なパートナー設定にまたがるオーバークッキングAI領域におけるIADの評価を行った。
論文 参考訳(メタデータ) (2026-05-23T01:59:41Z) - Adaptively Coordinating with Novel Partners via Learned Latent Strategies [19.014669675808133]
我々は、リアルタイムに幅広いパートナー戦略を表現、分類、適応する戦略条件付き協調作業フレームワークを導入する。
提案手法は,エージェント軌道データから潜在戦略空間を学習するために,変分オートエンコーダを用いて戦略を符号化する。
我々は,インタラクション中のパートナーの戦略推定を動的に推論し,調整する固定共有後悔最小化アルゴリズムを活用する。
論文 参考訳(メタデータ) (2025-11-16T19:45:35Z) - Learning "Partner-Aware" Collaborators in Multi-Party Collaboration [12.287537011305497]
大規模言語モデル(LLM)は,人間との共同作業を行うエージェント設定にデプロイされることが増えている。
本稿では、協調行動に関する新たな理論的洞察を提供するために、AIアライメントと安全な割り込み可能性文献に基づく。
CG-最適協調者を訓練するための新しいパートナー認識学習アルゴリズムであるInterruptible Collaborative Roleplayer (ICR)を提案する。
論文 参考訳(メタデータ) (2025-10-26T00:05:48Z) - CooT: Learning to Coordinate In-Context with Coordination Transformers [10.888155149916967]
コーディネーション・トランスフォーマー(Coordination Transformers, Coot)は、目に見えないパートナーに迅速に適応する、コンテキスト内協調フレームワークである。
cootは、人口ベースアプローチ、勾配ベースの微調整、メタRLにインスパイアされたコンテキスト適応方法など、ベースラインを一貫して上回る。
対照的に、cootは安定かつ迅速なインコンテクスト適応を実現し、人間の評価において最も効果的なコラボレータである。
論文 参考訳(メタデータ) (2025-06-30T06:45:39Z) - Adaptive Coordination in Social Embodied Rearrangement [49.35582108902819]
本研究では,エージェントが新しいパートナーと協力し,ロボットが新しいパートナーと協力するシナリオをエミュレートする作業において,ゼロショットコーディネート(ZSC)を研究する。
本稿では,識別可能性の目的を通じて多様性を促進する新しいZSCアプローチである行動多様性プレイ(BDP)を提案する。
以上の結果から,BDPは視覚的コーディネーションに対処可能な適応エージェントを学習し,ゼロショットは未確認環境において新たなパートナーに一般化し,ベースラインに比べて35%,効率が32%向上した。
論文 参考訳(メタデータ) (2023-05-31T18:05:51Z) - A Hierarchical Approach to Population Training for Human-AI
Collaboration [20.860808795671343]
階層型強化学習(HRL)に基づくヒューマンAIコラボレーション手法を提案する。
本手法は,2人のプレイヤーによるオーバークッキングゲーム環境において,異なるプレイスタイルとスキルレベルを持つ新しいパートナに動的に適応できることを実証する。
論文 参考訳(メタデータ) (2023-05-26T07:53:12Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。