論文の概要: Mastering the Game of Go with Self-play Experience Replay
- arxiv url: http://arxiv.org/abs/2601.03306v1
- Date: Tue, 06 Jan 2026 08:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.043526
- Title: Mastering the Game of Go with Self-play Experience Replay
- Title(参考訳): セルフプレイ体験によるゲーム・オブ・ゴーのマスタリング
- Authors: Jingbin Liu, Xuechun Wang,
- Abstract要約: QZeroは,学習中の探索を禁ずる新しいモデルレス強化学習アルゴリズムであり,自己再生と非政治経験によるナッシュ均衡政策を学習する。
人間のデータなしでタトゥーララザを起動し、控えめな計算リソースで5ヶ月間トレーニングし、QZeroはAlphaGoに匹敵するパフォーマンスレベルを達成した。
- 参考スコア(独自算出の注目度): 5.792200378727493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The game of Go has long served as a benchmark for artificial intelligence, demanding sophisticated strategic reasoning and long-term planning. Previous approaches such as AlphaGo and its successors, have predominantly relied on model-based Monte-Carlo Tree Search (MCTS). In this work, we present QZero, a novel model-free reinforcement learning algorithm that forgoes search during training and learns a Nash equilibrium policy through self-play and off-policy experience replay. Built upon entropy-regularized Q-learning, QZero utilizes a single Q-value network to unify policy evaluation and improvement. Starting tabula rasa without human data and trained for 5 months with modest compute resources (7 GPUs), QZero achieved a performance level comparable to that of AlphaGo. This demonstrates, for the first time, the efficiency of using model-free reinforcement learning to master the game of Go, as well as the feasibility of off-policy reinforcement learning in solving large-scale and complex environments.
- Abstract(参考訳): Goのゲームは長年、人工知能のベンチマークとして機能し、高度な戦略的推論と長期計画を必要としてきた。
AlphaGoとその後継者のような以前のアプローチは、主にモデルベースのモンテカルロ木探索(MCTS)に依存してきた。
本研究では,学習中の探索を禁ずる新しいモデルフリー強化学習アルゴリズムであるQZeroについて述べる。
エントロピー規則化されたQ-ラーニングに基づいて構築されたQZeroは、ポリシー評価と改善を統合するために単一のQ-値ネットワークを使用する。
人間のデータなしでタトゥーララザを起動し、控えめな計算リソース(7GPU)で5ヶ月間トレーニングし、QZeroはAlphaGoに匹敵するパフォーマンスレベルを達成した。
これは、Goのゲームをマスターするためにモデルフリーの強化学習を使うことの効率性と、大規模で複雑な環境を解決するために、非政治強化学習が実現可能であることを初めて示している。
関連論文リスト
- R-Zero: Self-Evolving Reasoning LLM from Zero Data [47.8125954446991]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。
R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-08-07T03:38:16Z) - Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations [0.0]
強化学習(Reinforcement Learning, RL)は、多くのアプリケーション、特にゲームで広く使われている。
Google DeepMindはこの分野でイノベーションの先駆者であり、高度なAIモデルを作成するために強化学習アルゴリズムを使用している。
本稿では,アタリゲームと戦略ベースゲームにおける強化学習の意義について概説する。
論文 参考訳(メタデータ) (2025-02-14T17:06:34Z) - Improve Value Estimation of Q Function and Reshape Reward with Monte Carlo Tree Search [0.4450107621124637]
強化学習は、GoやAtariといった完璧な情報ゲームで大きな成功を収めた。
不完全な情報ゲームのための強化学習の研究は、より複雑なゲーム構造とランダム性のために比較的限られている。
本稿では,不完全な情報ゲームであるUnoに着目し,Q値過大評価を減らし,報酬関数を書き換えることにより,これらの問題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-15T14:31:54Z) - Learning Answer Generation using Supervision from Automatic Question
Answering Evaluators [98.9267570170737]
我々は、自動QA評価モデル(GAVA)の監督を用いたGenQAのための新しいトレーニングパラダイムを提案する。
提案手法を2つの学術的, 1つの産業的データセット上で評価し, 過去の技術状況に対して, 回答精度を大幅に向上させた。
論文 参考訳(メタデータ) (2023-05-24T16:57:04Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Chrome Dino Run using Reinforcement Learning [0.0]
我々は,Chrome Dino Runをプレイするエージェントをトレーニングするために,畳み込みニューラルネットワークとともに,最も人気のあるモデル強化学習アルゴリズムについて検討した。
我々は、Deep Q-Learning(深層Q-Learning)とPre expecteded SARSA(SARSA)という2つの時間差分アプローチを使用し、エージェントを訓練するためにDouble DQNモデルを実装した。
論文 参考訳(メタデータ) (2020-08-15T22:18:20Z) - Warm-Start AlphaZero Self-Play Search Enhancements [5.096685900776467]
近年、AlphaZeroは深い強化学習において目覚ましい成果を上げている。
本稿では,この冷間開始問題に対して,簡単な探索拡張を用いて対処する手法を提案する。
実験の結果,3つの異なる(小さな)ボードゲームにおけるベースラインプレーヤのパフォーマンスが向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-26T11:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。