論文の概要: Mastering NIM and Impartial Games with Weak Neural Networks: An AlphaZero-inspired Multi-Frame Approach
- arxiv url: http://arxiv.org/abs/2411.06403v1
- Date: Sun, 10 Nov 2024 09:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:52.123545
- Title: Mastering NIM and Impartial Games with Weak Neural Networks: An AlphaZero-inspired Multi-Frame Approach
- Title(参考訳): 弱ニューラルネットワークによるNIMとImpartial Gamesのマスタリング:AlphaZeroにインスパイアされたマルチフレームアプローチ
- Authors: Søren Riis,
- Abstract要約: 本稿では,Bei Zhou氏の研究成果を検証し,解説する理論的枠組みを提供する。
我々は,AlphaZeroスタイルの強化学習アルゴリズムが,NIMにおける最適プレイの学習に苦慮していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper provides a theoretical framework that validates and explains the results in the work with Bei Zhou experimentally finding that AlphaZero-style reinforcement learning algorithms struggle to learn optimal play in NIM, a canonical impartial game proposed as an AI challenge by Harvey Friedman in 2017. Our analysis resolves a controversy around these experimental results, which revealed unexpected difficulties in learning NIM despite its mathematical simplicity compared to games like chess and Go. Our key contributions are as follows: We prove that by incorporating recent game history, these limited AlphaZero models can, in principle, achieve optimal play in NIM. We introduce a novel search strategy where roll-outs preserve game-theoretic values during move selection, guided by a specialised policy network. We provide constructive proofs showing that our approach enables optimal play within the \(\text{AC}^0\) complexity class despite the theoretical limitations of these networks. This research demonstrates how constrained neural networks when properly designed, can achieve sophisticated decision-making even in domains where their basic computational capabilities appear insufficient.
- Abstract(参考訳): 本稿は,AlphaZeroスタイルの強化学習アルゴリズムが,2017年にハーヴェイ・フリードマン(Harvey Friedman)氏によって提案されたAIチャレンジとして提案された,NIMにおける最適プレイの学習に苦慮していることを,Bei Zhou氏による研究成果の検証と説明を行う理論的フレームワークを提供する。
この結果から,チェスや囲碁といったゲームと比較して,数学的な単純さにもかかわらず,NIMの学習に予期せぬ困難があることが判明した。
最近のゲームの歴史を取り入れることで、これらの限定されたAlphaZeroモデルが原則として、NIMにおける最適なプレイを達成できることを証明します。
本稿では,特殊なポリシーネットワークによって導かれる移動選択におけるゲーム理論的な価値をロールアウトが保持する,新たな検索戦略を提案する。
これらのネットワークの理論的制限にもかかわらず、我々の手法が \(\text{AC}^0\) 複雑性クラス内で最適なプレーを可能にすることを示す構成的証明を提供する。
本研究は,ニューラルネットワークが適切に設計された場合,基本的な計算能力が不十分な領域においても,高度な意思決定を実現する方法を示す。
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - In-Context Exploiter for Extensive-Form Games [38.24471816329584]
In-Context Exploiter (ICE) という新しい手法を導入し、ゲーム内の任意のプレイヤーとして動作し、コンテキスト内学習によって完全に対戦相手を適応的に活用できる単一モデルを訓練する。
我々のICEアルゴリズムは、多様な相手戦略の生成、強化学習アルゴリズムによる対話的履歴データの収集、そしてよく設計されたカリキュラム学習フレームワークにおけるトランスフォーマーベースのエージェントの訓練を含む。
論文 参考訳(メタデータ) (2024-08-10T14:59:09Z) - Reasoning Algorithmically in Graph Neural Networks [1.8130068086063336]
ニューラルネットワークの適応学習能力にアルゴリズムの構造的および規則に基づく推論を統合することを目的としている。
この論文は、この領域の研究に理論的および実践的な貢献を提供する。
論文 参考訳(メタデータ) (2024-02-21T12:16:51Z) - The Boundaries of Verifiable Accuracy, Robustness, and Generalisation in
Deep Learning [73.5095051707364]
経験的リスクを最小限に抑えるため,古典的な分布に依存しないフレームワークとアルゴリズムを検討する。
理想的な安定かつ正確なニューラルネットワークの計算と検証が極めて難しいタスク群が存在することを示す。
論文 参考訳(メタデータ) (2023-09-13T16:33:27Z) - A Deep Reinforcement Learning Approach for Finding Non-Exploitable
Strategies in Two-Player Atari Games [35.35717637660101]
本稿では,2プレイヤーゼロサムマルコフゲーム学習のための,エンドツーエンドの深層強化学習アルゴリズムを提案する。
我々の目標は、敵対者による搾取から解放されたナッシュ均衡政策を見つけることである。
論文 参考訳(メタデータ) (2022-07-18T19:07:56Z) - Unsupervised Hebbian Learning on Point Sets in StarCraft II [12.095363582092904]
本稿では,StarCraft IIゲームユニットにおける点集合のグローバルな特徴を抽出するヘビアン学習手法を提案する。
我々のモデルはエンコーダ、LSTM、デコーダを含み、教師なし学習法でエンコーダを訓練する。
論文 参考訳(メタデータ) (2022-07-13T13:09:48Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Neural Combinatorial Optimization: a New Player in the Field [69.23334811890919]
本稿では,ニューラルネットワークに基づくアルゴリズムの古典的最適化フレームワークへの導入に関する批判的分析を行う。
性能, 転送可能性, 計算コスト, 大規模インスタンスなど, これらのアルゴリズムの基本的側面を分析するために, 総合的研究を行った。
論文 参考訳(メタデータ) (2022-05-03T07:54:56Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Reinforcement Learning with External Knowledge by using Logical Neural
Networks [67.46162586940905]
論理ニューラルネットワーク(LNN)と呼ばれる最近のニューラルシンボリックフレームワークは、ニューラルネットワークとシンボリックロジックの両方のキープロパティを同時に提供することができる。
外部知識ソースからのモデルフリー強化学習を可能にする統合手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T12:34:59Z) - A Limited-Capacity Minimax Theorem for Non-Convex Games or: How I
Learned to Stop Worrying about Mixed-Nash and Love Neural Nets [29.606063890097275]
多目的最適化の特殊な例であるAdrial Trainingは、ますます普及している機械学習技術である。
GANベースの生成再生技術は、Goのようなポーカーゲームに応用されている。
論文 参考訳(メタデータ) (2020-02-14T00:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。