論文の概要: Superhuman AI for Stratego Using Self-Play Reinforcement Learning and Test-Time Search
- arxiv url: http://arxiv.org/abs/2511.07312v1
- Date: Mon, 10 Nov 2025 17:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.386765
- Title: Superhuman AI for Stratego Using Self-Play Reinforcement Learning and Test-Time Search
- Title(参考訳): セルフプレイ強化学習とテスト時間探索を用いた戦略のための超人的AI
- Authors: Samuel Sokota, Eugene Vinitsky, Hengyuan Hu, J. Zico Kolter, Gabriele Farina,
- Abstract要約: Stratego(ストラテゴ)は、大量の情報を隠蔽した戦略決定の挑戦を実証したボードゲームである。
この研究は、ストラテゴのパフォーマンスとコストの両方の段階的な変化を確立し、トップヒューマンのレベルに到達するだけでなく、超人的なレベルを達成することが可能になった。
- 参考スコア(独自算出の注目度): 74.17074385045657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few classical games have been regarded as such significant benchmarks of artificial intelligence as to have justified training costs in the millions of dollars. Among these, Stratego -- a board wargame exemplifying the challenge of strategic decision making under massive amounts of hidden information -- stands apart as a case where such efforts failed to produce performance at the level of top humans. This work establishes a step change in both performance and cost for Stratego, showing that it is now possible not only to reach the level of top humans, but to achieve vastly superhuman level -- and that doing so requires not an industrial budget, but merely a few thousand dollars. We achieved this result by developing general approaches for self-play reinforcement learning and test-time search under imperfect information.
- Abstract(参考訳): 数百万ドルのトレーニングコストを正当化するほど、人工知能の重要なベンチマークと見なされる古典的なゲームはほとんどない。
ストラテゴは、大量の秘密情報に基づいて戦略決定を行うという課題を実証するボードゲームで、このような努力がトップヒューマンのレベルでのパフォーマンスを達成できなかったケースとして、際立っている。
この研究は、ストラテゴのパフォーマンスとコストの両方の段階的な変化を確立し、トップヒューマンのレベルに到達するだけでなく、非常に超人的なレベルを達成することが可能になった。
その結果,不完全な情報下での自己演奏強化学習とテスト時間探索の一般的な手法を開発した。
関連論文リスト
- Evaluating Intelligence via Trial and Error [59.80426744891971]
本研究では,試行錯誤プロセスにおける失敗回数に基づいて知性を評価するためのフレームワークとして,Survival Gameを紹介した。
フェールカウントの期待と分散の両方が有限である場合、新しい課題に対するソリューションを一貫して見つける能力を示す。
我々の結果は、AIシステムは単純なタスクで自律レベルを達成するが、より複雑なタスクではまだまだ遠いことを示している。
論文 参考訳(メタデータ) (2025-02-26T05:59:45Z) - Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Deep RL Agent for a Real-Time Action Strategy Game [0.3867363075280543]
1対1のアクション戦略ゲームであるHeroic-Magic Duelをベースとした強化学習環境を導入する。
私たちの主な貢献は、競争レベルでゲームをする深層強化学習エージェントです。
私たちの最高のセルフプレイエージェントは、既存のAIに対して約65%の勝利率と、トップヒューマンプレイヤーに対して50%以上の勝利率を得ることができます。
論文 参考訳(メタデータ) (2020-02-15T01:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。