論文の概要: Testing the spin-bath view of self-attention: A Hamiltonian analysis of GPT-2 Transformer
- arxiv url: http://arxiv.org/abs/2507.00683v1
- Date: Tue, 01 Jul 2025 11:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.604845
- Title: Testing the spin-bath view of self-attention: A Hamiltonian analysis of GPT-2 Transformer
- Title(参考訳): 自己注意のスピンバス視点の検証:GPT-2変換器のハミルトン解析
- Authors: Satadeep Bhattacharjee, Seung-Cheol Lee,
- Abstract要約: 対話型2体スピンシステムとして,Large Language Models (LLMs) の注意機構について検討した。
我々は、プロダクショングレードのGPT-2モデルから、すべての注目ヘッドに対して対応する実効ハミルトニアンを導出する。
本研究は, 生産段階モデルにおけるスピンバス類似性の最初の強い実証的証拠である。
- 参考スコア(独自算出の注目度): 1.691971345435238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed physics-based framework by Huo and Johnson~\cite{huo2024capturing} models the attention mechanism of Large Language Models (LLMs) as an interacting two-body spin system, offering a first-principles explanation for phenomena like repetition and bias. Building on this hypothesis, we extract the complete Query-Key weight matrices from a production-grade GPT-2 model and derive the corresponding effective Hamiltonian for every attention head. From these Hamiltonians we obtain analytic \textit{phase boundaries} logit gap criteria that predict which token should dominate the next-token distribution for a given context. A systematic evaluation on 144 heads across 20 factual-recall prompts reveals a strong negative correlation between the theoretical logit gaps and the model's empirical token rankings ($r\approx-0.70$, $p<10^{-3}$).Targeted ablations further show that suppressing the heads most aligned with the spin-bath predictions induces the anticipated shifts in output probabilities, confirming a causal link rather than a coincidental association. Taken together, our findings provide the first strong empirical evidence for the spin-bath analogy in a production-grade model. This validation not only furnishes a tractable, physics-inspired lens for interpretability but also provides the groundwork for novel generative models, bridging the gap between theoretical condensed matter physics and AI.
- Abstract(参考訳): HuoとJohnsonによる最近提案された物理ベースのフレームワーク~\cite{huo2024capturing}は、相互作用する2体スピンシステムとしてのLarge Language Models(LLM)の注意機構をモデル化し、繰り返しやバイアスのような現象を第一原理で説明する。
この仮説に基づいて、プロダクショングレードの GPT-2 モデルから完全な Query-Key 重み行列を抽出し、注目ヘッド毎に対応する実効ハミルトニアンを導出する。
これらのハミルトニアンから分析的 \textit{phase boundary} logit gap criteria を得ると、どのトークンが与えられたコンテキストに対して次のトークン分布を支配するべきかを予測することができる。
20個のファクトリコールプロンプトの144個のヘッドに対する体系的評価は、理論的なロジットギャップとモデルの経験的トークンランキング(r\approx-0.70$, $p<10^{-3}$)の間に強い負の相関を示す。
さらに、スピンバス予測に最も適した頭部の抑制は、出力確率の予想されるシフトを誘導し、偶然の関連性よりも因果関係を確かめることを示す。
本研究は, 生産段階モデルにおけるスピンバス類似性の最初の強い実証的証拠を提供するものである。
この検証は、難解で物理学にインスパイアされた、解釈可能なレンズを提供するだけでなく、理論凝縮物質物理学とAIの間のギャップを埋める新しい生成モデルの基盤を提供する。
関連論文リスト
- Graph Stochastic Neural Process for Inductive Few-shot Knowledge Graph Completion [63.68647582680998]
I-FKGC(inductive few-shot knowledge graph completion)と呼ばれる課題に焦点をあてる。
帰納的推論(inductive reasoning)の概念に着想を得て,I-FKGCを帰納的推論問題とした。
本稿では,仮説の連成分布をモデル化したニューラルプロセスに基づく仮説抽出器を提案する。
第2のモジュールでは、この仮説に基づいて、クエリセットのトリプルが抽出された仮説と一致するかどうかをテストするグラフアテンションベースの予測器を提案する。
論文 参考訳(メタデータ) (2024-08-03T13:37:40Z) - Infusing Self-Consistency into Density Functional Theory Hamiltonian Prediction via Deep Equilibrium Models [30.746062388701187]
本稿では,統合ニューラルネットワークアーキテクチャ,Deep Equilibrium Density Functional Theory Hamiltonian (DEQH)モデルを紹介する。
DEQHモデルは本質的にハミルトニアンの自己整合性の性質を捉えている。
本稿では,DECと既製の機械学習モデルを組み合わせた多目的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T07:05:58Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - A statistical approach to topological entanglement: Boltzmann machine
representation of high-order irreducible correlation [6.430262211852815]
高次相関の量子アナログは、0温度の物質のトポロジカル秩序状態におけるトポロジカル絡みである。
本研究では,この2つを同じ情報理論の枠組みで統一する統計的解釈を提案する。
論文 参考訳(メタデータ) (2023-02-07T02:49:21Z) - Beyond the Universal Law of Robustness: Sharper Laws for Random Features
and Neural Tangent Kernels [14.186776881154127]
本稿では、ランダム特徴とニューラル・タンジェント・カーネル(NTK)の2つの設定における経験的リスク最小化に焦点を当てた。
ランダムな特徴に対して、モデルが任意のパラメータ化の度合いに対してロバストであることは、普遍的ロバスト性法則から生じる必要条件が満たされている場合でも証明する。
本研究の結果は, 合成および標準原型データセットの数値的証拠によって裏付けられている。
論文 参考訳(メタデータ) (2023-02-03T09:58:31Z) - Modeling the space-time correlation of pulsed twin beams [68.8204255655161]
パラメトリックダウンコンバージョンによって生成される絡み合ったツインビームは、画像指向アプリケーションで好まれるソースである。
本研究では,時間消費数値シミュレーションと非現実的な平面波ポンプ理論のギャップを埋めることを目的とした半解析モデルを提案する。
論文 参考訳(メタデータ) (2023-01-18T11:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。