論文の概要: Amortized Planning with Large-Scale Transformers: A Case Study on Chess
- arxiv url: http://arxiv.org/abs/2402.04494v2
- Date: Mon, 21 Oct 2024 09:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:13.001858
- Title: Amortized Planning with Large-Scale Transformers: A Case Study on Chess
- Title(参考訳): 大規模変圧器を用いた再生計画 : チェスを事例として
- Authors: Anian Ruoss, Grégoire Delétang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Cannada A. Lewis, Joel Veness, Tim Genewein,
- Abstract要約: 本稿では,AIにおける画期的な計画問題であるチェスを用いて,計画課題の性能評価を行う。
ChessBenchは、Stockfishが提供する法的行動と価値アノテーション(1500億ポイント)を備えた1000万のチェスゲームの大規模なベンチマークである。
極めて優れた近似を教師付き学習により大規模変圧器に蒸留することは可能であるが, 完全蒸留は依然として到達範囲を超えている。
- 参考スコア(独自算出の注目度): 11.227110138932442
- License:
- Abstract: This paper uses chess, a landmark planning problem in AI, to assess transformers' performance on a planning task where memorization is futile $\unicode{x2013}$ even at a large scale. To this end, we release ChessBench, a large-scale benchmark dataset of 10 million chess games with legal move and value annotations (15 billion data points) provided by Stockfish 16, the state-of-the-art chess engine. We train transformers with up to 270 million parameters on ChessBench via supervised learning and perform extensive ablations to assess the impact of dataset size, model size, architecture type, and different prediction targets (state-values, action-values, and behavioral cloning). Our largest models learn to predict action-values for novel boards quite accurately, implying highly non-trivial generalization. Despite performing no explicit search, our resulting chess policy solves challenging chess puzzles and achieves a surprisingly strong Lichess blitz Elo of 2895 against humans (grandmaster level). We also compare to Leela Chess Zero and AlphaZero (trained without supervision via self-play) with and without search. We show that, although a remarkably good approximation of Stockfish's search-based algorithm can be distilled into large-scale transformers via supervised learning, perfect distillation is still beyond reach, thus making ChessBench well-suited for future research.
- Abstract(参考訳): 本稿では,AIにおける画期的な計画問題であるチェスを用いて,大規模でも暗記が無駄な計画タスクにおいて,変圧器の性能を評価する。
この目的のために私たちは,最先端のチェスエンジンであるStockfish 16が提供する,法的移動と値アノテーション(1500億データポイント)を備えた1000万のチェスゲームの大規模なベンチマークデータセットであるChessBenchをリリースした。
教師付き学習を通じて、最大2億7000万のパラメータを持つトランスフォーマーをChessBenchでトレーニングし、データセットサイズ、モデルサイズ、アーキテクチャタイプ、および異なる予測ターゲット(状態値、アクション値、行動クローン)の影響を評価するために、広範囲にわたる改善を実行します。
我々の最大のモデルは、新しいボードのアクションバリューを正確に予測することを学び、非常に非自明な一般化を示唆している。
明示的な探索は行わなかったが、我々のチェス政策は挑戦的なチェスパズルを解決し、2895年の驚くほど強力なリチェス・ブリッツ・エロを人間(グランドマスターレベル)に対して達成した。
また、Leela Chess ZeroとAlphaZero(セルフプレイによる教師なしのトレーニング)を検索なしで比較した。
ストックフィッシュの探索に基づくアルゴリズムの驚くほど良い近似は、教師付き学習によって大規模変換器に蒸留できるが、完全蒸留は依然として到達範囲を超えており、ChessBenchは将来の研究に適していることを示す。
関連論文リスト
- Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Learning to Play Chess from Textbooks (LEAP): a Corpus for Evaluating
Chess Moves based on Sentiment Analysis [4.314956204483074]
本稿では,チェスの遊び方を学ぶための新しい知識源として,チェスの教科書について検討する。
我々はLEAPコーパスを開発した。LEAPコーパスは、構造化された(記法やボード状態を動かす)構造付きおよび非構造化データを備えた、最初の、そして新しい異種データセットである。
感情分析のための各種変圧器ベースラインモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2023-10-31T08:26:02Z) - End-to-End Chess Recognition [11.15543089335477]
現在のアプローチでは、チェスボードの検出、平方ローカライゼーション、ピース分類といった独立した独立したモジュールのパイプラインを使用している。
本稿では、画像から構成を直接予測するエンドツーエンドアプローチについて検討し、シーケンシャルアプローチのエラー蓄積を回避する。
合成レンダリングされ、角度が限られている既存のデータセットとは対照的に、ChessReDはスマートフォンカメラを使ってさまざまな角度から撮影されている。
ChessReDのテスト画像の15.26%で、チェスのピースの構成を認識することに成功した。
論文 参考訳(メタデータ) (2023-10-06T08:30:20Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z) - Determining Chess Game State From an Image [19.06796946564999]
本稿では,既存のモデルよりも桁違いに大きい3次元モデルから合成した新しいデータセットについて述べる。
従来のコンピュータビジョン技術とディープラーニングを組み合わせた新しいエンドツーエンドチェス認識システムを紹介します。
記述されたシステムでは,テストセット上での誤差率は0.23%であり,現状の28倍である。
論文 参考訳(メタデータ) (2021-04-30T13:02:13Z) - Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。
自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。
トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文 参考訳(メタデータ) (2021-02-26T01:16:23Z) - LiveChess2FEN: a Framework for Classifying Chess Pieces based on CNNs [0.0]
我々は,1秒未満で画像からチェス位置を自動的にデジタル化する機能的フレームワークを実装した。
チェスの駒の分類と組込みプラットフォーム上で効率的にマップする方法について、さまざまな畳み込みニューラルネットワークを分析した。
論文 参考訳(メタデータ) (2020-12-12T16:48:40Z) - Playing Chess with Limited Look Ahead [0.0]
静的評価関数として機能するために、ディープニューラルネットワークをトレーニングする。
我々は,我々の静的評価関数が,先見的な知識をコード化していることを示す。
先見深度に厳格な制限があるにもかかわらず、我々のエンジンはサンプル位置の約83%で同等の強度の移動を推奨している。
論文 参考訳(メタデータ) (2020-07-04T16:02:43Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。