論文の概要: Tracing the Thought of a Grandmaster-level Chess-Playing Transformer
- arxiv url: http://arxiv.org/abs/2604.10158v1
- Date: Sat, 11 Apr 2026 11:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.879529
- Title: Tracing the Thought of a Grandmaster-level Chess-Playing Transformer
- Title(参考訳): グランドマスターレベルのチェス演奏変圧器の思考の追跡
- Authors: Rui Lin, Zhenyu Jin, Guancheng Zhou, Xuyang Ge, Wentao Shu, Jiaxing Wu, Junxuan Wang, Zhengfu He, Junping Zhang, Xipeng Qiu,
- Abstract要約: 本稿では,Leela Chess Zeroの内部計算を解釈するスパース分解フレームワークを提案する。
これらの経路が豊富で解釈可能な考察を露呈することを示す詳細なケーススタディを行う。
我々の知る限りでは、これは計算モジュールと注意モジュールの両方で変換器の内部計算を分解する最初の試みである。
- 参考スコア(独自算出の注目度): 62.403498221631715
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While modern transformer neural networks achieve grandmaster-level performance in chess and other reasoning tasks, their internal computation process remains largely opaque. Focusing on Leela Chess Zero (LC0), we introduce a sparse decomposition framework to interpret its internal computation by decomposing its MLP and attention modules with sparse replacement layers, which capture the primary computation process of LC0. We conduct a detailed case study showing that these pathways expose rich, interpretable tactical considerations that are empirically verifiable. We further introduce three quantitative metrics and show that LC0 exhibits parallel reasoning behavior consistent with the inductive bias of its policy head architecture. To the best of our knowledge, this is the first work to decompose the internal computation of a transformer on both MLP and attention modules for interpretability. Combining sparse replacement layers and causal interventions in LC0 provides a comprehensive understanding of advanced tactical reasoning, offering critical insights into the underlying mechanisms of superhuman systems. Our code is available at https://github.com/JacklE0niden/Leela-SAEs.
- Abstract(参考訳): 現代のトランスフォーマーニューラルネットワークはチェスやその他の推論タスクにおいてグランドマスターレベルのパフォーマンスを達成するが、内部計算プロセスはほとんど不透明である。
本稿では,Leela Chess Zero (LC0) に着目し,LC0 の一次計算処理をキャプチャするスパース置換層で MLP とアテンションモジュールを分解して内部計算を解釈するスパース分解フレームワークを提案する。
本研究は,これらの経路が,経験的に検証可能なリッチで解釈可能な戦術的考察を明らかにするための詳細な事例研究である。
さらに3つの定量的指標を導入し,LC0がポリシーヘッドアーキテクチャの帰納バイアスと平行な推論挙動を示すことを示す。
我々の知る限りでは、MLPとアテンションモジュールの両方で変換器の内部計算を分解して解釈しやすくする最初の試みである。
LC0におけるスパース置換層と因果介入の組み合わせは、高度な戦術的推論を包括的に理解し、スーパーヒューマンシステムの基盤となるメカニズムに関する重要な洞察を提供する。
私たちのコードはhttps://github.com/JacklE0niden/Leela-SAEsで利用可能です。
関連論文リスト
- From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - Reasoning is a Modality [4.055765634948606]
人間の知性に中心的な能力である抽象的推論を研究する。
現代のAIシステムは、行動予測マシンとして動作する。
人間は内部状態の復号化によって行動を説明することができ、一方AIシステムは流動的なポストホックな合理化を生成することができる。
論文 参考訳(メタデータ) (2026-01-20T03:37:17Z) - Bridging Symbolic Control and Neural Reasoning in LLM Agents: The Structured Cognitive Loop [0.0]
エージェント認知を,検索,認知,制御,行動,記憶の5段階に分けたモジュール型アーキテクチャであるStructured Cognitive Loop (SCL)を導入する。
SCLの中核であるSoft Symbolic Controlは、確率的推論にシンボリック制約を適用する適応的なガバナンスメカニズムである。
我々は,ライブGPT-4oによる旅行計画エージェントとともに,R-CCAMループアーキテクチャを実演する完全なオープンソース実装を提供する。
論文 参考訳(メタデータ) (2025-11-21T05:19:34Z) - Provable In-Context Vector Arithmetic via Retrieving Task Concepts [53.685764040547625]
クロスエントロピー損失に対する勾配降下による非線形残差変圧器の訓練は,ベクトル演算による実-リコールICLタスクをいかに行うかを示す。
これらの結果は、静的埋め込み前駆体よりもトランスフォーマーの利点を解明する。
論文 参考訳(メタデータ) (2025-08-13T13:54:44Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。