論文の概要: Learning to Model Opponent Learning
- arxiv url: http://arxiv.org/abs/2006.03923v1
- Date: Sat, 6 Jun 2020 17:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 21:33:13.936845
- Title: Learning to Model Opponent Learning
- Title(参考訳): 対人学習をモデル化する学習
- Authors: Ian Davies, Zheng Tian and Jun Wang
- Abstract要約: マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
- 参考スコア(独自算出の注目度): 11.61673411387596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Agent Reinforcement Learning (MARL) considers settings in which a set
of coexisting agents interact with one another and their environment. The
adaptation and learning of other agents induces non-stationarity in the
environment dynamics. This poses a great challenge for value function-based
algorithms whose convergence usually relies on the assumption of a stationary
environment. Policy search algorithms also struggle in multi-agent settings as
the partial observability resulting from an opponent's actions not being known
introduces high variance to policy training. Modelling an agent's opponent(s)
is often pursued as a means of resolving the issues arising from the
coexistence of learning opponents. An opponent model provides an agent with
some ability to reason about other agents to aid its own decision making. Most
prior works learn an opponent model by assuming the opponent is employing a
stationary policy or switching between a set of stationary policies. Such an
approach can reduce the variance of training signals for policy search
algorithms. However, in the multi-agent setting, agents have an incentive to
continually adapt and learn. This means that the assumptions concerning
opponent stationarity are unrealistic. In this work, we develop a novel
approach to modelling an opponent's learning dynamics which we term Learning to
Model Opponent Learning (LeMOL). We show our structured opponent model is more
accurate and stable than naive behaviour cloning baselines. We further show
that opponent modelling can improve the performance of algorithmic agents in
multi-agent settings.
- Abstract(参考訳): マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
他のエージェントの適応と学習は、環境力学において非定常性を誘導する。
これは、通常は定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
ポリシーサーチアルゴリズムは、相手の行動が知られていないことから生じる部分的な可観測性がポリシートレーニングに高いばらつきをもたらすため、マルチエージェント設定にも苦労する。
エージェントの対戦相手のモデル化は、しばしば、学習相手の共存から生じる問題を解決する手段として追求される。
相手モデルは、エージェントに他のエージェントを推論して自身の意思決定を支援する能力を提供する。
ほとんどの先行研究は、相手が静止ポリシーを採用するか、静止ポリシーのセットを切り替えていると仮定して、相手モデルを学ぶ。
このようなアプローチは、ポリシー探索アルゴリズムのトレーニング信号のばらつきを低減できる。
しかし、マルチエージェント設定では、エージェントは継続的に適応し学習するインセンティブを持つ。
これは、反対の定常性に関する仮定は非現実的であることを意味する。
本研究では,学習をモデルポンポントラーニング(LeMOL)と呼ぶ,対戦者の学習力学をモデル化するための新しいアプローチを開発する。
構造的相手モデルの方が, 行動クローンベースラインよりも正確で安定であることを示す。
さらに,マルチエージェント設定におけるアルゴリズムエージェントの性能を,対戦モデルが向上することを示す。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Contrastive learning-based agent modeling for deep reinforcement
learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-30T03:44:12Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Multi-agent Actor-Critic with Time Dynamical Opponent Model [16.820873906787906]
多エージェント強化学習では、複数のエージェントが共通の環境と相互作用しながら同時に学習する。
本稿では,TDOM(textitTime Dynamical Opponent Model)を提案する。
我々は,テスト期間中にTDOMが優れた対向行動予測を達成できることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-12T07:16:15Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - Opponent Learning Awareness and Modelling in Multi-Objective Normal Form
Games [5.0238343960165155]
エージェントはシステム内の他のエージェントの振る舞いについて学ぶことが不可欠である。
本稿では,非線形ユーティリティとの多目的マルチエージェント相互作用に対する,このようなモデリングの効果について述べる。
論文 参考訳(メタデータ) (2020-11-14T12:35:32Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。
本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。
他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文 参考訳(メタデータ) (2020-01-29T13:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。