論文の概要: Regret-Guided Search Control for Efficient Learning in AlphaZero
- arxiv url: http://arxiv.org/abs/2602.20809v1
- Date: Tue, 24 Feb 2026 11:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.734004
- Title: Regret-Guided Search Control for Efficient Learning in AlphaZero
- Title(参考訳): AlphaZeroにおける効率的な学習のためのレグレトガイド探索制御
- Authors: Yun-Jui Tsai, Wei-Yu Chen, Yan-Ru Ju, Yu-Hung Chang, Ti-Rong Wu,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、優れた性能を発揮するが、人間よりも学習効率がはるかに低い。
そこで我々は,AlphaZeroを拡張したRegret-Guided Search Control (RGSC)を提案する。
RGSCは、AlphaZeroトレーニングの効率性と堅牢性の両方を改善し、検索制御に効果的なメカニズムを提供する。
- 参考スコア(独自算出の注目度): 13.779557857453343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents achieve remarkable performance but remain far less learning-efficient than humans. While RL agents require extensive self-play games to extract useful signals, humans often need only a few games, improving rapidly by repeatedly revisiting states where mistakes occurred. This idea, known as search control, aims to restart from valuable states rather than always from the initial state. In AlphaZero, prior work Go-Exploit applies this idea by sampling past states from self-play or search trees, but it treats all states equally, regardless of their learning potential. We propose Regret-Guided Search Control (RGSC), which extends AlphaZero with a regret network that learns to identify high-regret states, where the agent's evaluation diverges most from the actual outcome. These states are collected from both self-play trajectories and MCTS nodes, stored in a prioritized regret buffer, and reused as new starting positions. Across 9x9 Go, 10x10 Othello, and 11x11 Hex, RGSC outperforms AlphaZero and Go-Exploit by an average of 77 and 89 Elo, respectively. When training on a well-trained 9x9 Go model, RGSC further improves the win rate against KataGo from 69.3% to 78.2%, while both baselines show no improvement. These results demonstrate that RGSC provides an effective mechanism for search control, improving both efficiency and robustness of AlphaZero training. Our code is available at https://rlg.iis.sinica.edu.tw/papers/rgsc.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、優れた性能を発揮するが、人間よりも学習効率がはるかに低い。
RLエージェントは有用な信号を抽出するために広範なセルフプレイゲームを必要とするが、人間はわずかなゲームしか必要とせず、ミスが発生した状態を繰り返し再考することで急速に改善する。
検索制御として知られるこの考え方は、常に初期状態からではなく、価値ある状態から再開することを目的としている。
AlphaZeroでは、先行研究であるGo-Exploitは、過去の状態を自己表現や探索木からサンプリングすることでこの考え方を適用しているが、学習の可能性に関係なく、全ての状態を平等に扱う。
提案するRegret-Guided Search Control (RGSC) は,AlphaZero を高レグレット状態の識別学習ネットワークに拡張し,エージェントの評価を実際の結果から最も分散させる。
これらの状態は、自己再生軌道とMCTSノードの両方から収集され、優先順位付けされた後悔バッファに格納され、新しい開始位置として再利用される。
9x9 Go, 10x10 Othello, 11x11 Hex, RGSCはそれぞれ平均77Elo, 89EloでAlphaZero, Go-Exploitを上回っている。
良く訓練された9x9 Goモデルのトレーニングでは、RGSCはKataGoに対する勝利率をさらに69.3%から78.2%に改善し、どちらのベースラインも改善していない。
これらの結果から, RGSC はAlphaZero トレーニングの効率性と堅牢性を両立させ, 探索制御に有効な機構を提供することが示された。
私たちのコードはhttps://rlg.iis.sinica.edu.tw/papers/rgsc.comで利用可能です。
関連論文リスト
- REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Coefficient Makes SVRG Effective [51.36251650664215]
SVRG (Variance Reduced Gradient) は理論的に説得力のある最適化手法である。
本研究では,実世界のニューラルネットワークを最適化するSVRGの可能性を示す。
論文 参考訳(メタデータ) (2023-11-09T18:47:44Z) - AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Does Zero-Shot Reinforcement Learning Exist? [11.741744003560095]
ゼロショットRLエージェント(ゼロショットRL agent)は、任意のRLタスクを、追加の計画や学習なしで即座に解決できるエージェントである。
これは報酬中心のRLパラダイムから"制御可能な"エージェントへのシフトを表している。
近似ゼロショットRLの戦略は、後続特徴(SF)や前方表現(FB)を用いて提案されている。
論文 参考訳(メタデータ) (2022-09-29T16:54:05Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - Improve Agents without Retraining: Parallel Tree Search with Off-Policy
Correction [63.595545216327245]
木探索(TS)における2つの大きな課題に取り組む。
我々はまず、TSと事前学習された値関数による行動選択が、元の事前学習されたエージェントと比較して性能を低下させるという、反直感的な現象を発見し、分析する。
Batch-BFS(Batch-BFS)は,木の各深さのすべてのノードを同時に前進させるGPUワイドファースト検索である。
論文 参考訳(メタデータ) (2021-07-04T19:32:24Z) - Combining Deep Reinforcement Learning and Search for
Imperfect-Information Games [30.520629802135574]
本稿では,自己再生強化学習と探索のためのフレームワークであるReBeLを,ゼロサムゲームにおけるナッシュ均衡に確実に収束させる。
また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、制限なしのテキサスホールド'emポーカーのパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-07-27T15:21:22Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。