Fugu-MT 論文翻訳(概要): Grandmaster-Level Chess Without Search

論文の概要: Grandmaster-Level Chess Without Search

arxiv url: http://arxiv.org/abs/2402.04494v1
Date: Wed, 7 Feb 2024 00:36:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 17:20:01.552569
Title: Grandmaster-Level Chess Without Search
Title（参考訳）: 検索なしのグランドマスターレベルチェス
Authors: Anian Ruoss, Gr\'egoire Del\'etang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Tim Genewein
Abstract要約: 我々は、1000万のチェスゲームのデータセットに基づいて教師付き学習を伴うモデルを訓練する。われわれの最大のモデルは2895年のリチェス・ブリッツ・エロ(Lichess blitz Elo)に到達した。モデルとデータセットのサイズを体系的に調べると、強力なチェスのパフォーマンスは十分な規模でしか発生しない。
参考スコア（独自算出の注目度）: 9.5790772976207
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent breakthrough successes in machine learning are mainly attributed to scale: namely large-scale attention-based architectures and datasets of unprecedented scale. This paper investigates the impact of training at scale for chess. Unlike traditional chess engines that rely on complex heuristics, explicit search, or a combination of both, we train a 270M parameter transformer model with supervised learning on a dataset of 10 million chess games. We annotate each board in the dataset with action-values provided by the powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our largest model reaches a Lichess blitz Elo of 2895 against humans, and successfully solves a series of challenging chess puzzles, without any domain-specific tweaks or explicit search algorithms. We also show that our model outperforms AlphaZero's policy and value networks (without MCTS) and GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size shows that strong chess performance only arises at sufficient scale. To validate our results, we perform an extensive series of ablations of design choices and hyperparameters.
Abstract（参考訳）: 機械学習における最近の画期的な成功は主に、大規模な注目ベースのアーキテクチャと前例のない規模のデータセットである。本稿では,チェスにおける大規模トレーニングの効果について検討する。複雑なヒューリスティック、明示的な検索、あるいはそれらの組み合わせに依存する従来のチェスエンジンとは異なり、1000万のチェスゲームのデータセットで教師付き学習を行う270mパラメータトランスフォーマーモデルをトレーニングします。データセットの各ボードに強力なStockfish 16エンジンが提供するアクション値をアノテートして,およそ150億のデータポイントを達成しました。われわれの最大のモデルは2895年のLichess blitz Eloに到達し、いくつかの難解なチェスパズルを、ドメイン固有の調整や明確な検索アルゴリズムなしで解決する。また,本モデルがAlphaZeroのポリシーと価値ネットワーク(MCTSなし)とGPT-3.5-turbo-インストラクションより優れていることを示す。モデルとデータセットのサイズを体系的に調べると、強力なチェスのパフォーマンスは十分な規模でしか発生しない。結果を検証するため,我々は設計選択とハイパーパラメータの広範囲なアブレーションを行う。

関連論文リスト

Out-of-distribution Tests Reveal Compositionality in Chess Transformers [6.356179251855671]
我々は、270Mパラメータチェス変換器を訓練し、系統的な一般化の失敗を明らかにするために、配布外シナリオでそれをテストする。分析の結果,トランスフォーマーは強い規則外挿法によって証明されるように,構成的一般化を示すことが示された。より難しいテストでは、チェスの変種であるチェス960など、部品の開始位置がランダム化される変種について、モデルを評価する。
論文参考訳（メタデータ） (2025-10-23T17:51:28Z)
Can Large Language Models Develop Strategic Reasoning? Post-training Insights from Learning Chess [54.5355907369231]
チェスにおける強化学習(RL)を通して,大規模言語モデル (LLM) が戦略的推論能力を発達させることができるかを検討する。以上の結果から, 蒸留法に基づく高密度報酬は, 希少な二進報酬よりも優れていることが示唆された。我々は、チェス推論訓練におけるSFTおよびRLの略語を提供し、この制限が、事前訓練されたモデルのチェスに対する内部理解の欠如に起因する証拠を見つける。
論文参考訳（メタデータ） (2025-07-01T13:16:34Z)
General search techniques without common knowledge for imperfect-information games, and application to superhuman Fog of War chess [68.20244032271847]
我々は、戦争チェスのための最初の超人的AIであるObscuroを提示する。不完全な情報ゲームにおける検索の進歩を導入し、強力でスケーラブルな推論を可能にした。最先端のAIと人間のプレーヤーに対する実験は、Obscuroがかなり強いことを示している。
論文参考訳（メタデータ） (2025-06-02T01:41:27Z)
Explore the Reasoning Capability of LLMs in the Chess Testbed [45.12891789312405]
我々は,注釈付き戦略と戦術を統合することで,チェスにおける大規模言語モデルの推論能力を向上させることを提案する。我々はLLaMA-3-8Bモデルを微調整し、より優れたチェスの動きを選択するタスクにおいて、最先端の商用言語モデルと比較する。
論文参考訳（メタデータ） (2024-11-11T01:42:56Z)
Predicting Chess Puzzle Difficulty with Transformers [0.0]
GlickFormerは,Glicko-2レーティングシステムを用いて,チェスパズルの難易度を予測するトランスフォーマーアーキテクチャである。提案モデルでは,空間的特徴抽出にChessFormerのバックボーンを改良し,分解変換技術を用いて時間情報を組み込んだ。結果は、GlickFormerのパフォーマンスが、最先端のChessFormerベースラインと比較して、複数のメトリクスにわたって優れていることを示している。
論文参考訳（メタデータ） (2024-10-14T20:39:02Z)
End-to-End Chess Recognition [11.15543089335477]
現在のアプローチでは、チェスボードの検出、平方ローカライゼーション、ピース分類といった独立した独立したモジュールのパイプラインを使用している。本稿では、画像から構成を直接予測するエンドツーエンドアプローチについて検討し、シーケンシャルアプローチのエラー蓄積を回避する。合成レンダリングされ、角度が限られている既存のデータセットとは対照的に、ChessReDはスマートフォンカメラを使ってさまざまな角度から撮影されている。 ChessReDのテスト画像の15.26%で、チェスのピースの構成を認識することに成功した。
論文参考訳（メタデータ） (2023-10-06T08:30:20Z)
Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文参考訳（メタデータ） (2022-11-07T18:43:25Z)
Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。 DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文参考訳（メタデータ） (2022-06-30T15:53:19Z)
Measuring the Non-Transitivity in Chess [19.618609913302855]
我々は、人間のプレイヤーの実際のデータを通してチェスの非透過性を定量化する。非透過性の度合いとチェス選手のレーティングの進行との間には強いつながりがある。
論文参考訳（メタデータ） (2021-10-22T12:15:42Z)
Determining Chess Game State From an Image [19.06796946564999]
本稿では,既存のモデルよりも桁違いに大きい3次元モデルから合成した新しいデータセットについて述べる。従来のコンピュータビジョン技術とディープラーニングを組み合わせた新しいエンドツーエンドチェス認識システムを紹介します。記述されたシステムでは,テストセット上での誤差率は0.23%であり,現状の28倍である。
論文参考訳（メタデータ） (2021-04-30T13:02:13Z)
Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文参考訳（メタデータ） (2021-02-26T01:16:23Z)
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner [77.67437357688316]
我々は、同時移動と大規模なステートアクションスペースでマルチプレイヤーの不完全な情報ゲームをプレイする学習を検討します。我々のアプローチはモデルに基づく計画に基づいている。我々は,Clash Royale と Pommerman のゲームにおいて,プランナーが効率的なプレイ戦略を発見することができることを示す。
論文参考訳（メタデータ） (2020-12-22T17:29:57Z)
LiveChess2FEN: a Framework for Classifying Chess Pieces based on CNNs [0.0]
我々は,1秒未満で画像からチェス位置を自動的にデジタル化する機能的フレームワークを実装した。チェスの駒の分類と組込みプラットフォーム上で効率的にマップする方法について、さまざまな畳み込みニューラルネットワークを分析した。
論文参考訳（メタデータ） (2020-12-12T16:48:40Z)
Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文参考訳（メタデータ） (2020-07-10T09:33:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。