論文の概要: Preference-based opponent shaping in differentiable games
- arxiv url: http://arxiv.org/abs/2412.03072v1
- Date: Wed, 04 Dec 2024 06:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:44.079248
- Title: Preference-based opponent shaping in differentiable games
- Title(参考訳): 異なるゲームにおける選好型対戦相手シェーピング
- Authors: Xinyu Qiao, Yudong Hu, Congying Han, Weiyan Wu, Tiande Guo,
- Abstract要約: そこで我々は,エージェントの嗜好を協調に向けて形作ることによって,戦略学習プロセスを強化するためのPBOS法を提案する。
様々な異なるゲームにおいてPBOSアルゴリズムの性能を検証する。
- 参考スコア(独自算出の注目度): 3.373994463906893
- License:
- Abstract: Strategy learning in game environments with multi-agent is a challenging problem. Since each agent's reward is determined by the joint strategy, a greedy learning strategy that aims to maximize its own reward may fall into a local optimum. Recent studies have proposed the opponent modeling and shaping methods for game environments. These methods enhance the efficiency of strategy learning by modeling the strategies and updating processes of other agents. However, these methods often rely on simple predictions of opponent strategy changes. Due to the lack of modeling behavioral preferences such as cooperation and competition, they are usually applicable only to predefined scenarios and lack generalization capabilities. In this paper, we propose a novel Preference-based Opponent Shaping (PBOS) method to enhance the strategy learning process by shaping agents' preferences towards cooperation. We introduce the preference parameter, which is incorporated into the agent's loss function, thus allowing the agent to directly consider the opponent's loss function when updating the strategy. We update the preference parameters concurrently with strategy learning to ensure that agents can adapt to any cooperative or competitive game environment. Through a series of experiments, we verify the performance of PBOS algorithm in a variety of differentiable games. The experimental results show that the PBOS algorithm can guide the agent to learn the appropriate preference parameters, so as to achieve better reward distribution in multiple game environments.
- Abstract(参考訳): マルチエージェントによるゲーム環境における戦略学習は難しい問題である。
各エージェントの報酬は共同戦略によって決定されるため、自身の報酬を最大化することを目的とした欲求学習戦略は、局所的な最適に陥る可能性がある。
近年,ゲーム環境に対する対戦型モデリングと成形法が提案されている。
これらの方法は、戦略をモデル化し、他のエージェントのプロセスを更新して戦略学習の効率を高める。
しかし、これらの手法は、しばしば反対戦略の変化の単純な予測に依存する。
協調や競争のような行動選好のモデル化が欠如しているため、それらは通常、事前に定義されたシナリオにのみ適用され、一般化能力が欠如している。
本稿では,エージェントの協調的嗜好を形作ることによって,戦略学習プロセスを強化するためのPBOS手法を提案する。
本稿では、エージェントの損失関数に組み込まれた優先パラメータを導入し、戦略を更新する際、エージェントが直接相手の損失関数を考慮できるようにする。
我々は、エージェントが任意の協調的または競争的なゲーム環境に適応できるように、戦略学習と並行して選好パラメータを更新する。
様々な異なるゲームにおいて,PBOSアルゴリズムの性能を検証した。
実験の結果,PBOSアルゴリズムはエージェントに適切な選好パラメータを学習させ,複数のゲーム環境においてより優れた報奨分布を実現することができることがわかった。
関連論文リスト
- Best Response Shaping [1.0874100424278175]
LOLAとPOLAのエージェントは、相手のルックアヘッド最適化ステップを通じて、相互性に基づく協調政策を区別することで学習する。
彼らはいくつかの最適化ステップを考慮するので、そのリターンを最適化するために多くのステップを踏む学習相手がそれらを活用できるかもしれない。
そこで本研究では,Best Response Shaping (BRS) という新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-05T22:03:35Z) - Fast Peer Adaptation with Context-aware Exploration [63.08444527039578]
マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
論文 参考訳(メタデータ) (2024-02-04T13:02:27Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Game Theoretic Rating in N-player general-sum games with Equilibria [26.166859475522106]
そこで我々は,N-playerに適した新しいアルゴリズムを提案する。
これにより、平衡のような確立された解の概念を利用でき、複雑な戦略的相互作用を持つゲームにおける戦略を効率的に評価することができる。
論文 参考訳(メタデータ) (2022-10-05T12:33:03Z) - Mixed Strategies for Security Games with General Defending Requirements [37.02840909260615]
Stackelbergのセキュリティゲームはディフェンダーとアタッカーの間で行われ、ディフェンダーは複数のターゲットに限られたリソースを割り当てる必要がある。
そこで本研究では,ごく少数の戦略のみを用いる混合戦略を計算し,効率的な近似パチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-26T08:56:39Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Portfolio Search and Optimization for General Strategy Game-Playing [58.896302717975445]
ローリングホライズン進化アルゴリズムに基づく最適化とアクション選択のための新しいアルゴリズムを提案する。
エージェントのパラメータとポートフォリオセットの最適化について,N-tuple Bandit Evolutionary Algorithmを用いて検討する。
エージェントの性能分析により,提案手法はすべてのゲームモードによく一般化し,他のポートフォリオ手法よりも優れることが示された。
論文 参考訳(メタデータ) (2021-04-21T09:28:28Z) - On the Impossibility of Convergence of Mixed Strategies with No Regret
Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。
各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文 参考訳(メタデータ) (2020-12-03T18:02:40Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。