論文の概要: StratFormer: Adaptive Opponent Modeling and Exploitation in Imperfect-Information Games
- arxiv url: http://arxiv.org/abs/2604.25796v1
- Date: Tue, 28 Apr 2026 16:03:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.939042
- Title: StratFormer: Adaptive Opponent Modeling and Exploitation in Imperfect-Information Games
- Title(参考訳): StratFormer:不完全な情報ゲームにおける適応型応答モデリングと爆発
- Authors: Andy Caen, Mark H. M. Winands, Dennis J. N. J. Soemers,
- Abstract要約: StratFormerはトランスフォーマーベースのメタエージェントで、不完全な情報ゲームで対戦相手を同時にモデル化し、活用することを学ぶ。
StratFormer は GTO 上で1人当たり平均 0.106 BB の攻撃ゲインを達成し、高い攻撃力を持つ相手に対して 0.821 のピークゲインを達成している。
- 参考スコア(独自算出の注目度): 0.8574682463936006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present StratFormer, a transformer-based meta-agent that learns to simultaneously model and exploit opponents in imperfect-information games through a two-phase curriculum. The first phase trains an opponent modeling head to identify behavioral patterns from action histories while the agent plays a game-theoretic optimal (GTO) policy. The second phase progressively shifts the policy toward best-response (BR) exploitation, guided by a per-opponent regularization schedule tied to exploitability. Our architecture introduces dual-turn tokens -- feature vectors constructed at both agent and opponent decision points -- coupled with bucket-rate features that encode opponent tendencies across five strategic contexts. On Leduc Hold'em, a small poker variant with six cards and two betting rounds, we test against six opponent archetypes at two strength levels each, with exploitability ranging from 0.15 to 1.26 Big Blinds (BB) per hand. StratFormer achieves an average exploitation gain of +0.106 BB per hand over GTO, with peak gains of +0.821 against highly exploitable opponents, while maintaining near-equilibrium safety.
- Abstract(参考訳): 変換器をベースとしたメタエージェントであるStratFormerは,2段階のカリキュラムを通じて不完全な情報ゲームにおいて,対戦相手を同時にモデル化し,活用することを学ぶ。
第1フェーズは、エージェントがゲーム理論最適(GTO)ポリシーを実行する間、相手のモデリングヘッドをトレーニングし、アクション履歴から行動パターンを識別する。
第2のフェーズは、エクスプロイラビリティに結びついた、対数ごとの正規化スケジュールによって導かれる、ベスト・レスポンス・エクスプロイト(BR)に対するポリシーを段階的にシフトする。
私たちのアーキテクチャでは、エージェントと反対の意思決定ポイントの両方で構築された特徴ベクトルであるデュアルターントークンと、5つの戦略的文脈で反対の傾向を符号化するバケットレート機能を導入しています。
6枚のカードと2枚のベッティングラウンドを持つ小さなポーカーであるLeduc Hold'emでは、それぞれ2つの強度レベルで6つの敵のアーチタイプに対して、1手当たり0.15から1.26ビッグブラインド(BB)のエクスプロイラビリティをテストした。
StratFormer は GTO 上で1人当たり平均 0.106 BB の攻撃ゲインを達成し、高い攻撃力を持つ相手に対して 0.821 のピークゲインを達成し、平衡に近い安全性を維持している。
関連論文リスト
- Enhancing Language Agent Strategic Reasoning through Self-Play in Adversarial Games [60.213483076150844]
本稿では,PLAY-And-Learn,SCO-PALを用いたステップレベルのポリCy最適化手法を提案する。
対戦相手を異なるレベルに設定することで、対戦相手の選択を詳細に分析し、戦略的推論を改善する最も効果的な方法が自己プレーであることを見出した。
我々は6試合でGPT-4に対して54.76%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-10-19T09:03:28Z) - Beyond Game Theory Optimal: Profit-Maximizing Poker Agents for No-Limit Holdem [0.06610877051761614]
Game-Theory-Regret Minimization (CFR) は、ヘッドアップの状況では最高であり、CFRは、ほとんどのマルチウェイの状況では最強の方法である。
我々のアプローチは、ポーカーエージェントが単に負けないものから、多様な相手に一貫して勝つものへとどう動くかを示すことを目的としている。
論文 参考訳(メタデータ) (2025-09-28T08:51:57Z) - CyGATE: Game-Theoretic Cyber Attack-Defense Engine for Patch Strategy Optimization [73.13843039509386]
本稿では,攻撃と防御の相互作用をモデル化するゲーム理論フレームワークCyGATEを提案する。
CyGATEはサイバー・キル・チェーン(Cyber Kill Chain)の段階にわたって、サイバー紛争を部分的に観察可能なゲーム(POSG)として捉えている。
フレームワークの柔軟なアーキテクチャは、マルチエージェントシナリオの拡張を可能にする。
論文 参考訳(メタデータ) (2025-08-01T09:53:06Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Combining Deep Reinforcement Learning and Search with Generative Models for Game-Theoretic Opponent Modeling [30.465929764202155]
深層ゲーム理論強化学習を用いた対戦型モデリングのためのスケーラブルで汎用的なマルチエージェントトレーニングシステムを提案する。
まず,モンテカルロ木探索(MCTS)に基づく最適応答アルゴリズムGenBRを提案する。
我々は,政策空間対応オラクル (PSRO) の枠組みの下で,この新たな手法を用いて,エホフライン反対モデルの自動生成を行う。
論文 参考訳(メタデータ) (2023-02-01T23:06:23Z) - Game Theory for Adversarial Attacks and Defenses [0.0]
敵攻撃は、データセットのサンプルに小さなが故意に最悪の摂動を適用することで、敵の入力を生成することができる。
いくつかの敵防衛技術は、モデルの安全性と堅牢性を改善し、攻撃を避けるために開発されている。
論文 参考訳(メタデータ) (2021-10-08T07:38:33Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。