論文の概要: Nested Training for Mutual Adaptation in Human-AI Teaming
- arxiv url: http://arxiv.org/abs/2602.17737v1
- Date: Wed, 18 Feb 2026 23:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.090578
- Title: Nested Training for Mutual Adaptation in Human-AI Teaming
- Title(参考訳): Nested Training for Mutual Adaptation in Human-AI Teaming
- Authors: Upasana Biswas, Durgesh Kalwar, Subbarao Kambhampati, Sarath Sreedharan,
- Abstract要約: 既存のアプローチは、トレーニングパートナの多様性を改善して人間の振る舞いを近似することを目的としているが、これらのパートナは静的であり、人間の適応的な振る舞いを捉えることができない。
我々は,人間ロボットのチーム化シナリオを対話的部分観測可能なマルコフ決定プロセス (I-POMDP) としてモデル化し,その状態の一部としての人間の適応を明示的にモデル化する。
提案手法を,人間ロボットの協調作業用に設計された複数のベースラインエージェントと比較し,オーバークッキング領域における協調設定を必要とするマルチフェーズで学習する。
- 参考スコア(独自算出の注目度): 30.247046563601202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mutual adaptation is a central challenge in human--AI teaming, as humans naturally adjust their strategies in response to a robot's policy. Existing approaches aim to improve diversity in training partners to approximate human behavior, but these partners are static and fail to capture adaptive behavior of humans. Exposing robots to adaptive behaviors is critical, yet when both agents learn simultaneously in a multi-agent setting, they often converge to opaque implicit coordination strategies that only work with the agents they were co-trained with. Such agents fail to generalize when paired with new partners. In order to capture the adaptive behavior of humans, we model the human-robot teaming scenario as an Interactive Partially Observable Markov Decision Process (I-POMDP), explicitly modeling human adaptation as part of the state. We propose a nested training regime to approximately learn the solution to a finite-level I-POMDP. In this framework, agents at each level are trained against adaptive agents from the level below. This ensures that the ego agent is exposed to adaptive behavior during training while avoiding the emergence of implicit coordination strategies, since the training partners are not themselves learning. We train our method in a multi-episode, required cooperation setup in the Overcooked domain, comparing it against several baseline agents designed for human-robot teaming. We evaluate the performance of our agent when paired with adaptive partners that were not seen during training. Our results demonstrate that our agent not only achieves higher task performance with these adaptive partners but also exhibits significantly greater adaptability during team interactions.
- Abstract(参考訳): 人間はロボットの方針に応じて戦略を自然に調整するので、相互適応はAIチームにおける中心的な課題である。
既存のアプローチは、トレーニングパートナの多様性を改善して人間の振る舞いを近似することを目的としているが、これらのパートナは静的であり、人間の適応的な振る舞いを捉えることができない。
適応的な行動にロボットを配置することは重要であるが、両方のエージェントが複数のエージェント設定で同時に学習すると、それらはしばしば、彼らが一緒に訓練されたエージェントとのみ動作する不透明な暗黙の調整戦略に収束する。
これらのエージェントは、新しいパートナーとペアを組むと、一般化に失敗する。
人間の適応行動を捉えるために,人間とロボットのペアリングシナリオを対話的部分観察可能なマルコフ決定プロセス (I-POMDP) としてモデル化し,人間の適応を国家の一部として明示的にモデル化する。
有限レベルI-POMDPの解法を概ね学習するためのネスト付きトレーニングシステムを提案する。
この枠組みでは、各レベルのエージェントは、下のレベルからの適応エージェントに対して訓練される。
これにより、トレーニングパートナ自身が学習していないため、暗黙の調整戦略の出現を避けながら、トレーニング中にエゴエージェントが適応的な行動に晒されることが保証される。
提案手法を,人間ロボットの協調作業用に設計された複数のベースラインエージェントと比較し,オーバークッキング領域における協調設定を必要とするマルチフェーズで学習する。
トレーニング中に見られなかった適応的パートナーとペアを組む際のエージェントの性能を評価した。
我々のエージェントは、これらの適応的なパートナでより高いタスクパフォーマンスを達成するだけでなく、チーム間相互作用における適応性も著しく向上することを示す。
関連論文リスト
- Modeling Distinct Human Interaction in Web Agents [59.600507469754575]
我々は、協調的なWebタスク実行を支援するために、人間の介入をモデル化するタスクを紹介する。
エージェントとのユーザインタラクションの4つのパターンを特定します。
我々は、これらの介入認識モデルをライブWebナビゲーションエージェントにデプロイし、ユーザスタディで評価し、ユーザ評価エージェントの有用性が26.5%向上した。
論文 参考訳(メタデータ) (2026-02-19T18:11:28Z) - Improving Human-AI Coordination through Online Adversarial Training and Generative Models [32.057874335805685]
新たな人間に一般化するには、人間の行動の多様性を捉えたデータに関する訓練が必要である。
敵対的トレーニングは、動的データ生成を可能にする有望な方法であり、エージェントが堅牢であることを保証する。
本稿では、事前学習した生成モデルを用いて、有効な協調エージェント政策と敵の訓練をシミュレートし、後悔を最大化する新しい戦略を提案する。
論文 参考訳(メタデータ) (2025-04-21T21:53:00Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - A Hierarchical Approach to Population Training for Human-AI
Collaboration [20.860808795671343]
階層型強化学習(HRL)に基づくヒューマンAIコラボレーション手法を提案する。
本手法は,2人のプレイヤーによるオーバークッキングゲーム環境において,異なるプレイスタイルとスキルレベルを持つ新しいパートナに動的に適応できることを実証する。
論文 参考訳(メタデータ) (2023-05-26T07:53:12Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Safe adaptation in multiagent competition [48.02377041620857]
マルチエージェントの競争シナリオでは、エゴエージェントは前例のない振る舞いを持つ新しい相手に適応しなければならない。
エゴエージェントは、相手を悪用するために自身の行動を更新するので、その行動はより悪用される可能性がある。
我々は,エゴエージェントを正規化相手モデルに対してトレーニングする安全な適応手法を開発する。
論文 参考訳(メタデータ) (2022-03-14T23:53:59Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Behaviour-conditioned policies for cooperative reinforcement learning
tasks [41.74498230885008]
現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
深層強化学習モデルは、必要な機能を提供するためにトレーニングすることができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
本研究では,行動パターンの異なるエージェントの集団を合成的に生成する手法を提案する。
また、生成されたデータを効率的に利用し、メタ学習能力を得ることができるエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-04T09:16:41Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z) - Adaptive Agent Architecture for Real-time Human-Agent Teaming [3.284216428330814]
エージェントは人間の意図を推論し、警察を円滑な調整に適応させることが重要である。
ほとんどの文献は、学習された人間のモデルを参照するエージェントを構築している。
二者協調ゲームにおける人間モデルフリー設定における適応エージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-07T20:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。