論文の概要: Game Solving with Online Fine-Tuning
- arxiv url: http://arxiv.org/abs/2311.07178v1
- Date: Mon, 13 Nov 2023 09:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:01:50.045572
- Title: Game Solving with Online Fine-Tuning
- Title(参考訳): オンラインファインチューニングによるゲーム問題解決
- Authors: Ti-Rong Wu, Hung Guei, Ting Han Wei, Chung-Chin Shih, Jui-Te Chin,
I-Chen Wu
- Abstract要約: 本稿では,探索中のオンラインファインチューニングの適用について検討し,ゲーム問題解決のための最適設計計算を学習するための2つの方法を提案する。
実験の結果,オンラインファインチューニングを用いることで,ベースラインに比べて23.54%の時間しか利用できない7x7 Killall-Goの課題が解決できることがわかった。
- 参考スコア(独自算出の注目度): 17.614045403579244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Game solving is a similar, yet more difficult task than mastering a game.
Solving a game typically means to find the game-theoretic value (outcome given
optimal play), and optionally a full strategy to follow in order to achieve
that outcome. The AlphaZero algorithm has demonstrated super-human level play,
and its powerful policy and value predictions have also served as heuristics in
game solving. However, to solve a game and obtain a full strategy, a winning
response must be found for all possible moves by the losing player. This
includes very poor lines of play from the losing side, for which the AlphaZero
self-play process will not encounter. AlphaZero-based heuristics can be highly
inaccurate when evaluating these out-of-distribution positions, which occur
throughout the entire search. To address this issue, this paper investigates
applying online fine-tuning while searching and proposes two methods to learn
tailor-designed heuristics for game solving. Our experiments show that using
online fine-tuning can solve a series of challenging 7x7 Killall-Go problems,
using only 23.54% of computation time compared to the baseline without online
fine-tuning. Results suggest that the savings scale with problem size. Our
method can further be extended to any tree search algorithm for problem
solving. Our code is available at
https://rlg.iis.sinica.edu.tw/papers/neurips2023-online-fine-tuning-solver.
- Abstract(参考訳): ゲーム解決は、ゲームをマスターするよりも、同じような、しかし難しいタスクです。
ゲームの解決は通常、ゲーム理論的な価値(最適なプレイで得られる利益)を見つけ、その結果を達成するための完全な戦略を見つけることを意味する。
alphazeroアルゴリズムはスーパーヒューマンレベルのプレイを実証し、その強力なポリシーと価値予測はゲームの解法におけるヒューリスティックスとしても役立った。
しかし、試合を解いて完全な戦略を得るためには、負けたプレイヤーのあらゆる動きに対して勝利の反応を見出す必要がある。
この中には、AlphaZeroのセルフプレイプロセスに遭遇しない、負けた側からの非常に貧しいプレイラインが含まれている。
AlphaZeroベースのヒューリスティックスは、検索全体を通して発生する分布外位置を評価する際に、非常に不正確である。
そこで本研究では,探索中にオンラインの微調整を適用し,ゲーム解法のための仕立て型ヒューリスティックスを学ぶ2つの手法を提案する。
オンラインの微調整は,オンラインの微調整を行なわずに,計算時間の23.54%の計算時間を用いて,難しい7×7キルオールゴー問題を解くことができることを示した。
その結果,貯蓄は問題規模で拡大することが示唆された。
本手法は,問題解決のための任意の木探索アルゴリズムに拡張することができる。
私たちのコードはhttps://rlg.iis.sinica.edu.tw/papers/neurips2023-online-fine-tuning-solverで利用可能です。
関連論文リスト
- Semi-Strongly solved: a New Definition Leading Computer to Perfect Gameplay [0.0]
「ゲーム解決のための定義はいくつかあるが、計算コストと導出した洞察の詳細については明らかに異なる。」
半強解」と呼ばれる新しい定義を導入し、このタイプの解を効率的に実現するためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:00:46Z) - People use fast, goal-directed simulation to reason about novel games [71.0171482296852]
シンプルなが斬新なConnect-Nスタイルのボードゲームについて、人々がどう考えるかを研究する。
ゲームがどんなに公平か、そしてどんなに楽しいのかを、ごくわずかな経験から判断するよう、私たちは人々に求めます。
論文 参考訳(メタデータ) (2024-07-19T07:59:04Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Generalised agent for solving higher board states of tic tac toe using
Reinforcement Learning [0.0]
本研究の目的は, 短時間で正確な移動を行うため, 高位板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板
そのアイデアは、よく考えられた学習問題として、ティック・タック・トイ・ゲーム(tic tac toe game)を取り入れることだ。
研究とその成果は有望であり、トレーニングの各エポックに比例して高い勝利を与える。
論文 参考訳(メタデータ) (2022-12-23T10:58:27Z) - An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。
本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文 参考訳(メタデータ) (2022-07-02T23:39:45Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Safe Search for Stackelberg Equilibria in Extensive-Form Games [24.557177222572786]
スタックルバーグ均衡(Stackelberg equilibrium)は、2人プレイヤゲームにおいて、リーダーが従者に対するコミットメント権を持つ解概念である。
一般ゲームにおけるスタックルバーグ平衡の計算に探索を適用するための理論的に健全で実験的に有効な方法を提案する。
論文 参考訳(メタデータ) (2021-02-02T22:01:19Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。