論文の概要: Learning to Plan via Supervised Contrastive Learning and Strategic Interpolation: A Chess Case Study
- arxiv url: http://arxiv.org/abs/2506.04892v1
- Date: Thu, 05 Jun 2025 11:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.674911
- Title: Learning to Plan via Supervised Contrastive Learning and Strategic Interpolation: A Chess Case Study
- Title(参考訳): 教師付きコントラスト学習と戦略補間による計画の学習--チェスケーススタディ
- Authors: Andrew Hamara, Greg Hamerly, Pablo Rivas, Andrew C. Freeman,
- Abstract要約: 我々は、教師付きコントラスト学習を用いてトランスフォーマーエンコーダを訓練し、位置評価によって構成された潜在空間に基板状態を埋め込む。
移動選択は, 深層探索に頼らずに, 有利な領域に進むことで, この埋め込み空間内で完全に発生することを実証する。
モデルサイズと埋め込み次元の両方でパフォーマンスが向上し、潜在計画が従来の検索の代替となる可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern chess engines achieve superhuman performance through deep tree search and regressive evaluation, while human players rely on intuition to select candidate moves followed by a shallow search to validate them. To model this intuition-driven planning process, we train a transformer encoder using supervised contrastive learning to embed board states into a latent space structured by positional evaluation. In this space, distance reflects evaluative similarity, and visualized trajectories display interpretable transitions between game states. We demonstrate that move selection can occur entirely within this embedding space by advancing toward favorable regions, without relying on deep search. Despite using only a 6-ply beam search, our model achieves an estimated Elo rating of 2593. Performance improves with both model size and embedding dimensionality, suggesting that latent planning may offer a viable alternative to traditional search. Although we focus on chess, the proposed embedding-based planning method can be generalized to other perfect-information games where state evaluations are learnable. All source code is available at https://github.com/andrewhamara/SOLIS.
- Abstract(参考訳): 現代のチェスエンジンは、深い木探索と回帰評価によって超人的なパフォーマンスを達成する一方、人間のプレイヤーは、選択した候補の動きに対して直感に頼り、それを検証するために浅い探索を行う。
この直感駆動型計画法をモデル化するために、教師付きコントラスト学習を用いてトランスフォーマーエンコーダを訓練し、位置評価により構成された潜在空間に基板状態を埋め込む。
この空間では距離は評価的類似性を反映し、可視化された軌跡はゲーム状態間の解釈可能な遷移を示す。
移動選択は, 深層探索に頼らずに, 有利な領域に進むことで, この埋め込み空間内で完全に発生することを実証する。
6pのビームサーチしか使用していないにもかかわらず、推定Elo評価は2593である。
モデルサイズと埋め込み次元の両方でパフォーマンスが向上し、潜在計画が従来の検索の代替となる可能性があることを示唆している。
チェスに焦点をあてるが、提案手法は、状態評価が学習可能な他の完全情報ゲームに一般化することができる。
すべてのソースコードはhttps://github.com/andrewhamara/SOLISで入手できる。
関連論文リスト
- Mastering Board Games by External and Internal Planning with Language Models [30.782334791241556]
探索に基づくプランニングにより,大規模言語モデルによるゲームプレイ能力の大幅な向上が期待できることを示す。
外部探索では,モンテカルロ木探索のロールアウトと評価を外部ゲームエンジンに呼び出しずにガイドし,内部探索では,探索の線形化木と最終的な選択をインコンテキストで生成するように訓練する。
提案手法は,探索とドメイン知識を組み合わせることで,ボードゲームに特化せず,より汎用的な応用を示唆するものである。
論文 参考訳(メタデータ) (2024-12-02T18:56:51Z) - PALMER: Perception-Action Loop with Memory for Long-Horizon Planning [1.5469452301122177]
PALMERと呼ばれる汎用計画アルゴリズムを導入する。
Palmerは古典的なサンプリングベースの計画アルゴリズムと学習に基づく知覚表現を組み合わせる。
これにより、表現学習、記憶、強化学習、サンプリングベースの計画の間に、緊密なフィードバックループが生成される。
論文 参考訳(メタデータ) (2022-12-08T22:11:49Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Embedding Earth: Self-supervised contrastive pre-training for dense land
cover classification [61.44538721707377]
本研究では,衛星画像の高可用性を活用するための自己監督型コントラスト事前学習法として,エンベディングアースを提案する。
提案手法による事前学習では, 25%の絶対mIoUが得られた。
学習した特徴は、異なる領域間で一般化され、提案した事前学習スキームの可能性を開放する。
論文 参考訳(メタデータ) (2022-03-11T16:14:14Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。
自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。
トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文 参考訳(メタデータ) (2021-02-26T01:16:23Z) - Gravitational Models Explain Shifts on Human Visual Attention [80.76475913429357]
視覚的注意(英: visual attention)とは、人間の脳が優先的な処理のために関連する感覚情報を選択する能力を指す。
過去30年間に様々な評価方法が提案されてきた。
注意変動を記述するための重力モデル(GRAV)を提案する。
論文 参考訳(メタデータ) (2020-09-15T10:12:41Z) - Sparse Graphical Memory for Robust Planning [93.39298821537197]
スパースメモリに状態と実現可能な遷移を格納する新しいデータ構造であるスパースグラフィカルメモリ(SGM)を導入する。
SGMは、ゴール条件付きRLに古典的状態集約基準を適用し、新しい双方向整合目標に従って状態を集約する。
本研究では, SGM が, 遠近法, スパース・リワード視覚ナビゲーションタスクにおいて, 最先端の工法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-13T17:59:32Z) - Learning Discrete State Abstractions With Deep Variational Inference [7.273663549650618]
状態抽象化の一種である近似バイシミュレーションを学習する手法を提案する。
我々はディープ・ニューラルエンコーダを使って状態を連続的な埋め込みにマッピングする。
我々はこれらの埋め込みを、アクション条件付き隠れマルコフモデルを用いて離散表現にマッピングする。
論文 参考訳(メタデータ) (2020-03-09T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。