論文の概要: Superior Computer Chess with Model Predictive Control, Reinforcement Learning, and Rollout
- arxiv url: http://arxiv.org/abs/2409.06477v1
- Date: Tue, 10 Sep 2024 13:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 17:48:44.212205
- Title: Superior Computer Chess with Model Predictive Control, Reinforcement Learning, and Rollout
- Title(参考訳): モデル予測制御,強化学習,ロールアウトを備えたスーパーコンピュータチェス
- Authors: Atharva Gundawar, Yuchao Li, Dimitri Bertsekas,
- Abstract要約: 移動選択のための新しいアーキテクチャを導入し、利用可能なチェスエンジンをコンポーネントとして使用する。
1基のエンジンは値空間MPC/RLスキームの近似における位置評価を提供するのに使われ、もう1基のエンジンは名目上の反対として使用される。
我々のアーキテクチャは位置評価エンジンの性能を大幅に改善することを示します。
- 参考スコア(独自算出の注目度): 2.68187684471817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we apply model predictive control (MPC), rollout, and reinforcement learning (RL) methodologies to computer chess. We introduce a new architecture for move selection, within which available chess engines are used as components. One engine is used to provide position evaluations in an approximation in value space MPC/RL scheme, while a second engine is used as nominal opponent, to emulate or approximate the moves of the true opponent player. We show that our architecture improves substantially the performance of the position evaluation engine. In other words our architecture provides an additional layer of intelligence, on top of the intelligence of the engines on which it is based. This is true for any engine, regardless of its strength: top engines such as Stockfish and Komodo Dragon (of varying strengths), as well as weaker engines. Structurally, our basic architecture selects moves by a one-move lookahead search, with an intermediate move generated by a nominal opponent engine, and followed by a position evaluation by another chess engine. Simpler schemes that forego the use of the nominal opponent, also perform better than the position evaluator, but not quite by as much. More complex schemes, involving multistep lookahead, may also be used and generally tend to perform better as the length of the lookahead increases. Theoretically, our methodology relies on generic cost improvement properties and the superlinear convergence framework of Newton's method, which fundamentally underlies approximation in value space, and related MPC/RL and rollout/policy iteration schemes. A critical requirement of this framework is that the first lookahead step should be executed exactly. This fact has guided our architectural choices, and is apparently an important factor in improving the performance of even the best available chess engines.
- Abstract(参考訳): 本稿では,モデル予測制御(MPC),ロールアウト,強化学習(RL)手法をコンピュータチェスに適用する。
移動選択のための新しいアーキテクチャを導入し、利用可能なチェスエンジンをコンポーネントとして使用する。
1基のエンジンは、値空間MPC/RLスキームの近似における位置評価を提供するのに用いられ、もう1基のエンジンは、真の相手選手の動きをエミュレートまたは近似するために、名目相手として使用される。
我々のアーキテクチャは位置評価エンジンの性能を大幅に改善することを示します。
言い換えれば、私たちのアーキテクチャは、それがベースとするエンジンのインテリジェンスの上に、新たなインテリジェンス層を提供します。
これはどんなエンジンにも当てはまり、ストックフィッシュやコモド・ドラゴン(強度の異なる)などのトップエンジンやより弱いエンジンである。
構造上,我々の基本的アーキテクチャは1モーブのルックアヘッドサーチによって動きを選択し,その中間動作は名目上の対戦エンジンによって生成され,次に別のチェスエンジンによって位置評価される。
名目上の相手の使用を先導する単純なスキームは、位置評価器よりも優れているが、それほど多くはない。
多段階のルックアヘッドを含むより複雑なスキームも使用でき、概してルックアヘッドの長さが増加するにつれて性能が向上する傾向にある。
理論的には,提案手法は,基本的に値空間の近似と関連するMPC/RLとロールアウト/ポリチクスの反復スキームを基礎とするニュートン法における一般的なコスト改善特性と超線形収束フレームワークに依存している。
このフレームワークの重要な要件は、最初のルックアヘッドステップを正確に実行する必要があることである。
この事実はアーキテクチャの選択を導いており、おそらく最高のチェスエンジンのパフォーマンスを向上させる上で重要な要素である。
関連論文リスト
- Enhancing Chess Reinforcement Learning with Graph Representation [21.919003715442074]
グラフニューラルネットワーク(GNN)に基づくより一般的なアーキテクチャを導入する。
この新しいアーキテクチャは、同じ数のパラメータで以前のアーキテクチャより優れていることを示す。
また、より小さな5倍のチェスでトレーニングすると、通常の8倍のチェスでプレイできるように素早く微調整できることも示しています。
論文 参考訳(メタデータ) (2024-10-31T09:18:47Z) - Mastering Chess with a Transformer Model [0.0]
十分な表現力のある位置表現を付与したトランスフォーマーは,既存のチェス演奏モデルと計算コストのごく一部で一致できることを示す。
私たちのアーキテクチャはChessformerと呼ばれ、8倍少ない計算でAlphaZeroの演奏能力とパズル解決能力の両方で大幅に優れています。
論文 参考訳(メタデータ) (2024-09-18T19:05:21Z) - Evolving Virtual World with Delta-Engine [60.488864128937955]
この仮想世界を駆動する特別なエンジンであるtextemphDelta-Engineを提案する。
デルタエンジンの重要な特徴は、世界中の未知の要素へのスケーラビリティである。
論文 参考訳(メタデータ) (2024-08-11T18:32:29Z) - Predicting User Perception of Move Brilliance in Chess [3.434553688053531]
チェスの動きを華々しく分類する最初のシステムを示す。
精度は79%(ベースレート50%)、PPVは83%、NPVは75%である。
より弱いエンジンが低品質とみなすと、この動きは輝かしく、すべて等しいと予測される傾向が示される。
論文 参考訳(メタデータ) (2024-06-14T17:46:26Z) - Hierarchical Empowerment: Towards Tractable Empowerment-Based Skill
Learning [65.41865750258775]
汎用エージェントは、大量のスキルのレパートリーを必要とする。
我々は、コンピューティングのエンパワーメントをより魅力的にする新しいフレームワーク、階層エンパワーメントを導入します。
一般的なアリナビゲーション領域では、我々の4つのレベルエージェントは、以前の作業よりも2桁大きい表面積をカバーするスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-07-06T02:27:05Z) - Comparison Analysis of Traditional Machine Learning and Deep Learning
Techniques for Data and Image Classification [62.997667081978825]
本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。
まず、視覚語モデルと深部畳み込みニューラルネットワーク(DCNN)の理論的背景を示す。
次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。
論文 参考訳(メタデータ) (2022-04-11T11:34:43Z) - Meta Mirror Descent: Optimiser Learning for Fast Convergence [85.98034682899855]
我々は、勾配降下ではなくミラー降下から始まり、対応するブレグマン発散をメタラーニングする。
このパラダイム内では、後悔の限界を最小化するための新しいメタ学習目標を定式化する。
多くのメタ学習オプティマイザとは異なり、収束と一般化の保証もサポートしており、検証データを必要としない。
論文 参考訳(メタデータ) (2022-03-05T11:41:13Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - LiveChess2FEN: a Framework for Classifying Chess Pieces based on CNNs [0.0]
我々は,1秒未満で画像からチェス位置を自動的にデジタル化する機能的フレームワークを実装した。
チェスの駒の分類と組込みプラットフォーム上で効率的にマップする方法について、さまざまな畳み込みニューラルネットワークを分析した。
論文 参考訳(メタデータ) (2020-12-12T16:48:40Z) - Playing Chess with Limited Look Ahead [0.0]
静的評価関数として機能するために、ディープニューラルネットワークをトレーニングする。
我々は,我々の静的評価関数が,先見的な知識をコード化していることを示す。
先見深度に厳格な制限があるにもかかわらず、我々のエンジンはサンプル位置の約83%で同等の強度の移動を推奨している。
論文 参考訳(メタデータ) (2020-07-04T16:02:43Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。