論文の概要: Behaviour-conditioned policies for cooperative reinforcement learning
tasks
- arxiv url: http://arxiv.org/abs/2110.01266v1
- Date: Mon, 4 Oct 2021 09:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 21:48:30.223319
- Title: Behaviour-conditioned policies for cooperative reinforcement learning
tasks
- Title(参考訳): 協調強化学習タスクのための行動条件ポリシー
- Authors: Antti Keurulainen (1 and 3), Isak Westerlund (3), Ariel Kwiatkowski
(3), Samuel Kaski (1 and 2) and Alexander Ilin (1) ((1) Helsinki Institute
for Information Technology HIIT, Department of Computer Science, Aalto
University, (2) Department of Computer Science, University of Manchester, (3)
Bitville Oy, Espoo, Finland)
- Abstract要約: 現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
深層強化学習モデルは、必要な機能を提供するためにトレーニングすることができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
本研究では,行動パターンの異なるエージェントの集団を合成的に生成する手法を提案する。
また、生成されたデータを効率的に利用し、メタ学習能力を得ることができるエージェントアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 41.74498230885008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The cooperation among AI systems, and between AI systems and humans is
becoming increasingly important. In various real-world tasks, an agent needs to
cooperate with unknown partner agent types. This requires the agent to assess
the behaviour of the partner agent during a cooperative task and to adjust its
own policy to support the cooperation. Deep reinforcement learning models can
be trained to deliver the required functionality but are known to suffer from
sample inefficiency and slow learning. However, adapting to a partner agent
behaviour during the ongoing task requires ability to assess the partner agent
type quickly. We suggest a method, where we synthetically produce populations
of agents with different behavioural patterns together with ground truth data
of their behaviour, and use this data for training a meta-learner. We
additionally suggest an agent architecture, which can efficiently use the
generated data and gain the meta-learning capability. When an agent is equipped
with such a meta-learner, it is capable of quickly adapting to cooperation with
unknown partner agent types in new situations. This method can be used to
automatically form a task distribution for meta-training from emerging
behaviours that arise, for example, through self-play.
- Abstract(参考訳): AIシステム間の協力、そしてAIシステムと人間間の協力はますます重要になりつつある。
現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
これにより、協力作業中のパートナーエージェントの行動を評価し、協力を支援するための独自のポリシーを調整する必要がある。
深層強化学習モデルは必要な機能を提供するために訓練することができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
しかし、進行中のタスク中にパートナーエージェントの動作に適応するには、パートナーエージェントのタイプを素早く評価する能力が必要である。
本稿では,行動パターンの異なるエージェントの集団を,行動の真実データとともに合成的に生成し,このデータをメタラーナーの訓練に用いる方法を提案する。
さらに,生成されたデータを効率的に利用し,メタラーニング能力を得るエージェントアーキテクチャを提案する。
エージェントがそのようなメタリアナーを備えている場合、未知のパートナーエージェントタイプとの連携に新しい状況で迅速に対応することができる。
この手法は、例えばセルフプレイによって生じる出現する振る舞いからメタトレーニングのためのタスク分布を自動生成するために使用することができる。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Contrastive learning-based agent modeling for deep reinforcement
learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-30T03:44:12Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Learning to Cooperate with Unseen Agent via Meta-Reinforcement Learning [4.060731229044571]
アドホックなチームワーク問題は、エージェントが共通の目標を達成するために、以前は目に見えないエージェントと協力しなければならない状況を記述する。
エージェントの振る舞いを設計するためにドメイン知識を使用することで、エージェントに協調的なスキルを実装することができる。
本稿では,メタ強化学習(meta-RL)の定式化をアドホックなチームワーク問題に応用する。
論文 参考訳(メタデータ) (2021-11-05T12:01:28Z) - Targeted Data Acquisition for Evolving Negotiation Agents [6.953246373478702]
成功した交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ばなければならない。
現在の人工交渉エージェントは、トレーニングされた静的データセットの品質に大きく依存することが多い。
我々は、強化学習エージェントの探索をガイドするターゲットデータ取得フレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-14T19:45:59Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。