論文の概要: Resource-Efficient Model-Free Reinforcement Learning for Board Games
- arxiv url: http://arxiv.org/abs/2602.10894v1
- Date: Wed, 11 Feb 2026 14:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.004844
- Title: Resource-Efficient Model-Free Reinforcement Learning for Board Games
- Title(参考訳): ボードゲームのための資源効率の良いモデルフリー強化学習
- Authors: Kazuki Ota, Takayuki Osa, Motoki Omura, Tatsuya Harada,
- Abstract要約: より効率的な学習を実現するために,ボードゲームのためのモデルフリー強化学習アルゴリズムを提案する。
提案手法の有効性を検証するため,Animal Shogi, Gardner Chess, Go, Hex, Othelloの5つのボードゲームで総合実験を行った。
- 参考スコア(独自算出の注目度): 41.616970332107584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Board games have long served as complex decision-making benchmarks in artificial intelligence. In this field, search-based reinforcement learning methods such as AlphaZero have achieved remarkable success. However, their significant computational demands have been pointed out as barriers to their reproducibility. In this study, we propose a model-free reinforcement learning algorithm designed for board games to achieve more efficient learning. To validate the efficiency of the proposed method, we conducted comprehensive experiments on five board games: Animal Shogi, Gardner Chess, Go, Hex, and Othello. The results demonstrate that the proposed method achieves more efficient learning than existing methods across these environments. In addition, our extensive ablation study shows the importance of core techniques used in the proposed method. We believe that our efficient algorithm shows the potential of model-free reinforcement learning in domains traditionally dominated by search-based methods.
- Abstract(参考訳): ボードゲームは長年、人工知能の複雑な意思決定ベンチマークとして機能してきた。
この分野では、AlphaZeroのような検索に基づく強化学習手法が顕著に成功している。
しかし、それらの重要な計算要求は再現性への障壁として指摘されている。
本研究では,より効率的な学習を実現するために,ボードゲーム用に設計されたモデルレス強化学習アルゴリズムを提案する。
提案手法の有効性を検証するため,Animal Shogi, Gardner Chess, Go, Hex, Othelloの5つのボードゲームで総合実験を行った。
提案手法は,これらの環境における既存手法よりも効率的に学習できることを示す。
さらに,提案手法におけるコア技術の重要性についても検討した。
提案アルゴリズムは,従来,検索手法が支配的であった領域におけるモデルなし強化学習の可能性を示している。
関連論文リスト
- Sequencing to Mitigate Catastrophic Forgetting in Continual Learning [1.1724961392643483]
破滅的な忘れ(CF)は継続的学習アプローチの進歩にとって大きな課題である。
CFの緩和におけるタスクシークエンシングの役割を考察し、最適なタスク順序を決定する方法を提案する。
その結果、インテリジェントなタスクシークエンシングはCFを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2025-12-18T18:40:58Z) - Enfoque Odychess: Un método dialéctico, constructivista y adaptativo para la enseñanza del ajedrez con inteligencias artificiales generativas [0.0]
オデュチェスのアプローチはチェスを教える効果的な教育手法である。
この研究の意味は、革新的な教育技術を採用することに興味を持つ教育者や機関に関係している。
論文 参考訳(メタデータ) (2025-05-10T13:58:47Z) - Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。
本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (2024-12-18T18:24:47Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Deep Apprenticeship Learning for Playing Games [0.0]
複雑な多次元タスクのエキスパート行動に基づく学習モデルの設計の可能性について検討する。
本稿では,強化学習における教師あり学習技術に関する従来の研究をもとに,新しい見習い学習手法を提案する。
本手法は,アタリゲームからの映像フレームに適用し,人工エージェントによるゲームプレイの指導を行う。
論文 参考訳(メタデータ) (2022-05-16T19:52:45Z) - Maximum Entropy Model-based Reinforcement Learning [0.0]
この研究は、探索技術とモデルに基づく強化学習を結びつけている。
モデルベースアプローチの特徴を考慮した新しい探索手法を考案した。
また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-12-02T13:07:29Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。