論文の概要: Combining Deep Reinforcement Learning and Search with Generative Models for Game-Theoretic Opponent Modeling
- arxiv url: http://arxiv.org/abs/2302.00797v2
- Date: Fri, 13 Jun 2025 15:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.350484
- Title: Combining Deep Reinforcement Learning and Search with Generative Models for Game-Theoretic Opponent Modeling
- Title(参考訳): ゲーム理論応答モデルのための深層強化学習と探索と生成モデルの組み合わせ
- Authors: Zun Li, Marc Lanctot, Kevin R. McKee, Luke Marris, Ian Gemp, Daniel Hennes, Paul Muller, Kate Larson, Yoram Bachrach, Michael P. Wellman,
- Abstract要約: 深層ゲーム理論強化学習を用いた対戦型モデリングのためのスケーラブルで汎用的なマルチエージェントトレーニングシステムを提案する。
まず,モンテカルロ木探索(MCTS)に基づく最適応答アルゴリズムGenBRを提案する。
我々は,政策空間対応オラクル (PSRO) の枠組みの下で,この新たな手法を用いて,エホフライン反対モデルの自動生成を行う。
- 参考スコア(独自算出の注目度): 30.465929764202155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Opponent modeling methods typically involve two crucial steps: building a belief distribution over opponents' strategies, and exploiting this opponent model by playing a best response. However, existing approaches typically require domain-specific heurstics to come up with such a model, and algorithms for approximating best responses are hard to scale in large, imperfect information domains. In this work, we introduce a scalable and generic multiagent training regime for opponent modeling using deep game-theoretic reinforcement learning. We first propose Generative Best Respoonse (GenBR), a best response algorithm based on Monte-Carlo Tree Search (MCTS) with a learned deep generative model that samples world states during planning. This new method scales to large imperfect information domains and can be plug and play in a variety of multiagent algorithms. We use this new method under the framework of Policy Space Response Oracles (PSRO), to automate the generation of an \emph{offline opponent model} via iterative game-theoretic reasoning and population-based training. We propose using solution concepts based on bargaining theory to build up an opponent mixture, which we find identifying profiles that are near the Pareto frontier. Then GenBR keeps updating an \emph{online opponent model} and reacts against it during gameplay. We conduct behavioral studies where human participants negotiate with our agents in Deal-or-No-Deal, a class of bilateral bargaining games. Search with generative modeling finds stronger policies during both training time and test time, enables online Bayesian co-player prediction, and can produce agents that achieve comparable social welfare and Nash bargaining score negotiating with humans as humans trading among themselves.
- Abstract(参考訳): 対向的モデリング手法は、典型的には、2つの重要なステップ、すなわち、相手の戦略に対する信念の分布を構築し、最も良い反応をすることで、この相手モデルを利用する。
しかし、既存のアプローチではそのようなモデルを考えるためにドメイン固有のヒューリスティックを必要としており、最良の応答を近似するアルゴリズムは大規模で不完全な情報領域でスケールすることが困難である。
本研究では,深層ゲーム理論強化学習を用いた対戦型モデリングのためのスケーラブルで汎用的なマルチエージェント学習システムを提案する。
まず,モンテカルロ木探索(MCTS)に基づく最適応答アルゴリズムGenBRを提案する。
この新しい手法は、大規模な不完全な情報領域にスケールし、様々なマルチエージェントアルゴリズムでプラグ&プレイできる。
我々は,政策空間対応オラクル (PSRO) の枠組みを用いて,反復的ゲーム理論推論と人口ベーストレーニングにより,emph{offline opponent model} の生成を自動化する。
そこで本研究では,バーゲティング理論に基づく解の概念を用いて,パレートフロンティア付近のプロファイルを同定する。
そして、GenBRは \emph{online opponent model} を更新し続け、ゲームプレイ中にそれに対して反応する。
我々は,2国間交渉のクラスであるDeal-or-No-Dealにおいて,人間の参加者がエージェントと交渉する行動研究を行う。
生成的モデリングによる検索は、トレーニング時間とテスト時間の両方でより強力なポリシーを見つけ、オンラインベイズの共同プレイヤ予測を可能にし、同等の社会福祉を達成するエージェントを生成し、ナッシュは人間との交渉のスコアを得ることができる。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Best Response Shaping [1.0874100424278175]
LOLAとPOLAのエージェントは、相手のルックアヘッド最適化ステップを通じて、相互性に基づく協調政策を区別することで学習する。
彼らはいくつかの最適化ステップを考慮するので、そのリターンを最適化するために多くのステップを踏む学習相手がそれらを活用できるかもしれない。
そこで本研究では,Best Response Shaping (BRS) という新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-05T22:03:35Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Population-based Evaluation in Repeated Rock-Paper-Scissors as a
Benchmark for Multiagent Reinforcement Learning [14.37986882249142]
簡単なゲームRock, Paper, Scissorsの繰り返しプレイに基づくマルチエージェント学習のためのベンチマークを提案する。
平均リターンとエクスプロイラビリティの両方に基づいて,エージェントの品質を測定するための指標について述べる。
論文 参考訳(メタデータ) (2023-03-02T15:06:52Z) - Human-AI Coordination via Human-Regularized Search and Learning [33.95649252941375]
我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T03:46:12Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。