Fugu-MT 論文翻訳(概要): Amortized Planning with Large-Scale Transformers: A Case Study on Chess

論文の概要: Amortized Planning with Large-Scale Transformers: A Case Study on Chess

arxiv url: http://arxiv.org/abs/2402.04494v2
Date: Mon, 21 Oct 2024 09:37:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.643131
Title: Amortized Planning with Large-Scale Transformers: A Case Study on Chess
Title（参考訳）: 大規模変圧器を用いた再生計画 : チェスを事例として
Authors: Anian Ruoss, Grégoire Delétang, Sourabh Medapati, Jordi Grau-Moya, Li Kevin Wenliang, Elliot Catt, John Reid, Cannada A. Lewis, Joel Veness, Tim Genewein,
Abstract要約: 本稿では,AIにおける画期的な計画問題であるチェスを用いて,計画課題の性能評価を行う。 ChessBenchは、Stockfishが提供する法的行動と価値アノテーション(1500億ポイント)を備えた1000万のチェスゲームの大規模なベンチマークである。極めて優れた近似を教師付き学習により大規模変圧器に蒸留することは可能であるが, 完全蒸留は依然として到達範囲を超えている。
参考スコア（独自算出の注目度）: 11.227110138932442
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper uses chess, a landmark planning problem in AI, to assess transformers' performance on a planning task where memorization is futile $\unicode{x2013}$ even at a large scale. To this end, we release ChessBench, a large-scale benchmark dataset of 10 million chess games with legal move and value annotations (15 billion data points) provided by Stockfish 16, the state-of-the-art chess engine. We train transformers with up to 270 million parameters on ChessBench via supervised learning and perform extensive ablations to assess the impact of dataset size, model size, architecture type, and different prediction targets (state-values, action-values, and behavioral cloning). Our largest models learn to predict action-values for novel boards quite accurately, implying highly non-trivial generalization. Despite performing no explicit search, our resulting chess policy solves challenging chess puzzles and achieves a surprisingly strong Lichess blitz Elo of 2895 against humans (grandmaster level). We also compare to Leela Chess Zero and AlphaZero (trained without supervision via self-play) with and without search. We show that, although a remarkably good approximation of Stockfish's search-based algorithm can be distilled into large-scale transformers via supervised learning, perfect distillation is still beyond reach, thus making ChessBench well-suited for future research.
Abstract（参考訳）: 本稿では,AIにおける画期的な計画問題であるチェスを用いて,大規模でも暗記が無駄な計画タスクにおいて,変圧器の性能を評価する。この目的のために私たちは,最先端のチェスエンジンであるStockfish 16が提供する,法的移動と値アノテーション(1500億データポイント)を備えた1000万のチェスゲームの大規模なベンチマークデータセットであるChessBenchをリリースした。教師付き学習を通じて、最大2億7000万のパラメータを持つトランスフォーマーをChessBenchでトレーニングし、データセットサイズ、モデルサイズ、アーキテクチャタイプ、および異なる予測ターゲット(状態値、アクション値、行動クローン)の影響を評価するために、広範囲にわたる改善を実行します。我々の最大のモデルは、新しいボードのアクションバリューを正確に予測することを学び、非常に非自明な一般化を示唆している。明示的な探索は行わなかったが、我々のチェス政策は挑戦的なチェスパズルを解決し、2895年の驚くほど強力なリチェス・ブリッツ・エロを人間(グランドマスターレベル)に対して達成した。また、Leela Chess ZeroとAlphaZero(セルフプレイによる教師なしのトレーニング)を検索なしで比較した。ストックフィッシュの探索に基づくアルゴリズムの驚くほど良い近似は、教師付き学習によって大規模変換器に蒸留できるが、完全蒸留は依然として到達範囲を超えており、ChessBenchは将来の研究に適していることを示す。

関連論文リスト

Out-of-distribution Tests Reveal Compositionality in Chess Transformers [6.356179251855671]
我々は、270Mパラメータチェス変換器を訓練し、系統的な一般化の失敗を明らかにするために、配布外シナリオでそれをテストする。分析の結果,トランスフォーマーは強い規則外挿法によって証明されるように,構成的一般化を示すことが示された。より難しいテストでは、チェスの変種であるチェス960など、部品の開始位置がランダム化される変種について、モデルを評価する。
論文参考訳（メタデータ） (2025-10-23T17:51:28Z)
Can Large Language Models Develop Strategic Reasoning? Post-training Insights from Learning Chess [54.5355907369231]
チェスにおける強化学習(RL)を通して,大規模言語モデル (LLM) が戦略的推論能力を発達させることができるかを検討する。以上の結果から, 蒸留法に基づく高密度報酬は, 希少な二進報酬よりも優れていることが示唆された。我々は、チェス推論訓練におけるSFTおよびRLの略語を提供し、この制限が、事前訓練されたモデルのチェスに対する内部理解の欠如に起因する証拠を見つける。
論文参考訳（メタデータ） (2025-07-01T13:16:34Z)
General search techniques without common knowledge for imperfect-information games, and application to superhuman Fog of War chess [68.20244032271847]
我々は、戦争チェスのための最初の超人的AIであるObscuroを提示する。不完全な情報ゲームにおける検索の進歩を導入し、強力でスケーラブルな推論を可能にした。最先端のAIと人間のプレーヤーに対する実験は、Obscuroがかなり強いことを示している。
論文参考訳（メタデータ） (2025-06-02T01:41:27Z)
Explore the Reasoning Capability of LLMs in the Chess Testbed [45.12891789312405]
我々は,注釈付き戦略と戦術を統合することで,チェスにおける大規模言語モデルの推論能力を向上させることを提案する。我々はLLaMA-3-8Bモデルを微調整し、より優れたチェスの動きを選択するタスクにおいて、最先端の商用言語モデルと比較する。
論文参考訳（メタデータ） (2024-11-11T01:42:56Z)
Predicting Chess Puzzle Difficulty with Transformers [0.0]
GlickFormerは,Glicko-2レーティングシステムを用いて,チェスパズルの難易度を予測するトランスフォーマーアーキテクチャである。提案モデルでは,空間的特徴抽出にChessFormerのバックボーンを改良し,分解変換技術を用いて時間情報を組み込んだ。結果は、GlickFormerのパフォーマンスが、最先端のChessFormerベースラインと比較して、複数のメトリクスにわたって優れていることを示している。
論文参考訳（メタデータ） (2024-10-14T20:39:02Z)
End-to-End Chess Recognition [11.15543089335477]
現在のアプローチでは、チェスボードの検出、平方ローカライゼーション、ピース分類といった独立した独立したモジュールのパイプラインを使用している。本稿では、画像から構成を直接予測するエンドツーエンドアプローチについて検討し、シーケンシャルアプローチのエラー蓄積を回避する。合成レンダリングされ、角度が限られている既存のデータセットとは対照的に、ChessReDはスマートフォンカメラを使ってさまざまな角度から撮影されている。 ChessReDのテスト画像の15.26%で、チェスのピースの構成を認識することに成功した。
論文参考訳（メタデータ） (2023-10-06T08:30:20Z)
Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文参考訳（メタデータ） (2022-11-07T18:43:25Z)
Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。 DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文参考訳（メタデータ） (2022-06-30T15:53:19Z)
Measuring the Non-Transitivity in Chess [19.618609913302855]
我々は、人間のプレイヤーの実際のデータを通してチェスの非透過性を定量化する。非透過性の度合いとチェス選手のレーティングの進行との間には強いつながりがある。
論文参考訳（メタデータ） (2021-10-22T12:15:42Z)
Determining Chess Game State From an Image [19.06796946564999]
本稿では,既存のモデルよりも桁違いに大きい3次元モデルから合成した新しいデータセットについて述べる。従来のコンピュータビジョン技術とディープラーニングを組み合わせた新しいエンドツーエンドチェス認識システムを紹介します。記述されたシステムでは,テストセット上での誤差率は0.23%であり,現状の28倍である。
論文参考訳（メタデータ） (2021-04-30T13:02:13Z)
Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文参考訳（メタデータ） (2021-02-26T01:16:23Z)
Learning to Play Imperfect-Information Games by Imitating an Oracle Planner [77.67437357688316]
我々は、同時移動と大規模なステートアクションスペースでマルチプレイヤーの不完全な情報ゲームをプレイする学習を検討します。我々のアプローチはモデルに基づく計画に基づいている。我々は,Clash Royale と Pommerman のゲームにおいて,プランナーが効率的なプレイ戦略を発見することができることを示す。
論文参考訳（メタデータ） (2020-12-22T17:29:57Z)
LiveChess2FEN: a Framework for Classifying Chess Pieces based on CNNs [0.0]
我々は,1秒未満で画像からチェス位置を自動的にデジタル化する機能的フレームワークを実装した。チェスの駒の分類と組込みプラットフォーム上で効率的にマップする方法について、さまざまな畳み込みニューラルネットワークを分析した。
論文参考訳（メタデータ） (2020-12-12T16:48:40Z)
Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文参考訳（メタデータ） (2020-07-10T09:33:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。