論文の概要: In-Context Exploiter for Extensive-Form Games
- arxiv url: http://arxiv.org/abs/2408.05575v1
- Date: Sat, 10 Aug 2024 14:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:21:45.935613
- Title: In-Context Exploiter for Extensive-Form Games
- Title(参考訳): 総合型ゲームのためのIn-Context Exploiter
- Authors: Shuxin Li, Chang Yang, Youzhi Zhang, Pengdeng Li, Xinrun Wang, Xiao Huang, Hau Chan, Bo An,
- Abstract要約: In-Context Exploiter (ICE) という新しい手法を導入し、ゲーム内の任意のプレイヤーとして動作し、コンテキスト内学習によって完全に対戦相手を適応的に活用できる単一モデルを訓練する。
我々のICEアルゴリズムは、多様な相手戦略の生成、強化学習アルゴリズムによる対話的履歴データの収集、そしてよく設計されたカリキュラム学習フレームワークにおけるトランスフォーマーベースのエージェントの訓練を含む。
- 参考スコア(独自算出の注目度): 38.24471816329584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nash equilibrium (NE) is a widely adopted solution concept in game theory due to its stability property. However, we observe that the NE strategy might not always yield the best results, especially against opponents who do not adhere to NE strategies. Based on this observation, we pose a new game-solving question: Can we learn a model that can exploit any, even NE, opponent to maximize their own utility? In this work, we make the first attempt to investigate this problem through in-context learning. Specifically, we introduce a novel method, In-Context Exploiter (ICE), to train a single model that can act as any player in the game and adaptively exploit opponents entirely by in-context learning. Our ICE algorithm involves generating diverse opponent strategies, collecting interactive history training data by a reinforcement learning algorithm, and training a transformer-based agent within a well-designed curriculum learning framework. Finally, comprehensive experimental results validate the effectiveness of our ICE algorithm, showcasing its in-context learning ability to exploit any unknown opponent, thereby positively answering our initial game-solving question.
- Abstract(参考訳): ナッシュ均衡(英: Nash equilibrium, NE)は、ゲーム理論において、その安定性から広く採用されている解概念である。
しかし、NE戦略が必ずしも最良の結果をもたらすとは限りません、特にNE戦略に従わない相手に対してです。
この観察に基づいて、我々は新たなゲーム解決の疑問を提起する: NEでさえも、自身のユーティリティを最大限に活用できるモデルを学ぶことができるか?
本研究は,文脈内学習を通じてこの問題を調査するための最初の試みである。
具体的には、ゲーム内の任意のプレイヤーとして動作し、コンテキスト内学習によって完全に相手を適応的に活用できる単一のモデルをトレーニングするための新しい手法であるIn-Context Exploiter(ICE)を導入する。
我々のICEアルゴリズムは、多種多様な相手戦略の生成、強化学習アルゴリズムによる対話的履歴学習データ収集、そしてよく設計されたカリキュラム学習フレームワークにおけるトランスフォーマーベースのエージェントのトレーニングを含む。
最後に、ICEアルゴリズムの有効性を総合的に検証し、未知の相手を活用できるコンテキスト内学習能力を示し、その結果、最初のゲーム解決問題に肯定的に答える。
関連論文リスト
- Automated Security Response through Online Learning with Adaptive Conjectures [13.33996350474556]
我々はITインフラに対する自動セキュリティ対応について研究する。
我々は攻撃者とディフェンダーとの相互作用を部分的に観察された非静止ゲームとして定式化する。
論文 参考訳(メタデータ) (2024-02-19T20:06:15Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - BRExIt: On Opponent Modelling in Expert Iteration [7.088503833248158]
本稿では,現在最先端の学習アルゴリズムであるExpert Iteration(ExIt)に対立するモデルを組み込むことで,ゲームにおける学習を加速するBest Response Expert Iteration(BRExIt)を提案する。
BRExItは,(1)見習いにおける特徴形成を改善すること,(2)見習いの政策を補助課題として予測する方針,(2)見習いのモデルに向けた計画においてバイアス相手が動き,最良の反応をよりよく近似する見習いのターゲットを生成することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T20:49:10Z) - Dealing with Adversarial Player Strategies in the Neural Network Game
iNNk through Ensemble Learning [10.30864720221571]
本稿では,iNNkにおける対戦型プレイヤー戦略に焦点をあてる。
転送学習とアンサンブル法を組み合わせて,これらの戦略へのデータ効率の適応を求める手法を提案する。
本稿では,NNゲームが急速に発展する分野において,本手法が有用であると期待する。
論文 参考訳(メタデータ) (2021-07-05T14:25:44Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。