論文の概要: Model-Based Opponent Modeling
- arxiv url: http://arxiv.org/abs/2108.01843v1
- Date: Wed, 4 Aug 2021 04:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 21:17:10.744915
- Title: Model-Based Opponent Modeling
- Title(参考訳): モデルベース対向モデリング
- Authors: Xiaopeng Yu, Jiechuan Jiang, Haobin Jiang, and Zongqing Lu
- Abstract要約: 環境モデルを用いたモデルベース対戦相手モデリング(MBOM)を提案する。
MBOMは、競争環境や協調環境において、既存の手法よりも効果的な適応を実現している。
- 参考スコア(独自算出の注目度): 20.701733377216932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When one agent interacts with a multi-agent environment, it is challenging to
deal with various opponents unseen before. Modeling the behaviors, goals, or
beliefs of opponents could help the agent adjust its policy to adapt to
different opponents. In addition, it is also important to consider opponents
who are learning simultaneously or capable of reasoning. However, existing work
usually tackles only one of the aforementioned types of opponent. In this
paper, we propose model-based opponent modeling (MBOM), which employs the
environment model to adapt to all kinds of opponent. MBOM simulates the
recursive reasoning process in the environment model and imagines a set of
improving opponent policies. To effectively and accurately represent the
opponent policy, MBOM further mixes the imagined opponent policies according to
the similarity with the real behaviors of opponents. Empirically, we show that
MBOM achieves more effective adaptation than existing methods in competitive
and cooperative environments, respectively with different types of opponent,
i.e., fixed policy, na\"ive learner, and reasoning learner.
- Abstract(参考訳): エージェントがマルチエージェント環境と対話する場合、これまで見られなかったさまざまな相手に対処することは困難である。
相手の行動、目標、信念をモデル化することは、エージェントが異なる相手に適応するようにポリシーを調整するのに役立つ。
また、同時に学習している相手や推論できる相手も考慮しておくことも重要である。
しかし、既存の作業は通常、上記のタイプの相手の1つに対処する。
本稿では,あらゆる種類の対戦相手に対応するための環境モデルを用いたモデルベース対戦相手モデリング(mbom)を提案する。
MBOMは環境モデルにおける再帰的推論プロセスをシミュレートし、対立する政策を改善する一連のセットを想像する。
MBOMは、相手ポリシーを効果的かつ正確に表現するために、相手の実際の行動と類似性に応じて、想定された相手ポリシーをさらに混合する。
実証的に、mbomは、競争的および協調的環境において、既存の方法よりも効果的な適応を達成し、それぞれ異なるタイプの対戦相手、すなわち固定政策、na\"ive learner、推論学習者とをそれぞれ達成している。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Decision-making with Speculative Opponent Models [10.594910251058087]
分散応答支援型マルチエージェントアクター・クリティカル(DOMAC)について紹介する。
DOMACは、ローカル情報(例えば、制御されたエージェントの観察、行動、報酬)のみに依存する最初の投機的相手モデリングアルゴリズムである。
論文 参考訳(メタデータ) (2022-11-22T01:29:47Z) - Safe adaptation in multiagent competition [48.02377041620857]
マルチエージェントの競争シナリオでは、エゴエージェントは前例のない振る舞いを持つ新しい相手に適応しなければならない。
エゴエージェントは、相手を悪用するために自身の行動を更新するので、その行動はより悪用される可能性がある。
我々は,エゴエージェントを正規化相手モデルに対してトレーニングする安全な適応手法を開発する。
論文 参考訳(メタデータ) (2022-03-14T23:53:59Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Opponent Learning Awareness and Modelling in Multi-Objective Normal Form
Games [5.0238343960165155]
エージェントはシステム内の他のエージェントの振る舞いについて学ぶことが不可欠である。
本稿では,非線形ユーティリティとの多目的マルチエージェント相互作用に対する,このようなモデリングの効果について述べる。
論文 参考訳(メタデータ) (2020-11-14T12:35:32Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。