Fugu-MT 論文翻訳(概要): Testing the spin-bath view of self-attention: A Hamiltonian analysis of GPT-2 Transformer

論文の概要: Testing the spin-bath view of self-attention: A Hamiltonian analysis of GPT-2 Transformer

arxiv url: http://arxiv.org/abs/2507.00683v1
Date: Tue, 01 Jul 2025 11:33:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:59.604845
Title: Testing the spin-bath view of self-attention: A Hamiltonian analysis of GPT-2 Transformer
Title（参考訳）: 自己注意のスピンバス視点の検証:GPT-2変換器のハミルトン解析
Authors: Satadeep Bhattacharjee, Seung-Cheol Lee,
Abstract要約: 対話型2体スピンシステムとして,Large Language Models (LLMs) の注意機構について検討した。我々は、プロダクショングレードのGPT-2モデルから、すべての注目ヘッドに対して対応する実効ハミルトニアンを導出する。本研究は, 生産段階モデルにおけるスピンバス類似性の最初の強い実証的証拠である。
参考スコア（独自算出の注目度）: 1.691971345435238
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recently proposed physics-based framework by Huo and Johnson~\cite{huo2024capturing} models the attention mechanism of Large Language Models (LLMs) as an interacting two-body spin system, offering a first-principles explanation for phenomena like repetition and bias. Building on this hypothesis, we extract the complete Query-Key weight matrices from a production-grade GPT-2 model and derive the corresponding effective Hamiltonian for every attention head. From these Hamiltonians we obtain analytic \textit{phase boundaries} logit gap criteria that predict which token should dominate the next-token distribution for a given context. A systematic evaluation on 144 heads across 20 factual-recall prompts reveals a strong negative correlation between the theoretical logit gaps and the model's empirical token rankings ($r\approx-0.70$, $p<10^{-3}$).Targeted ablations further show that suppressing the heads most aligned with the spin-bath predictions induces the anticipated shifts in output probabilities, confirming a causal link rather than a coincidental association. Taken together, our findings provide the first strong empirical evidence for the spin-bath analogy in a production-grade model. This validation not only furnishes a tractable, physics-inspired lens for interpretability but also provides the groundwork for novel generative models, bridging the gap between theoretical condensed matter physics and AI.
Abstract（参考訳）: HuoとJohnsonによる最近提案された物理ベースのフレームワーク~\cite{huo2024capturing}は、相互作用する2体スピンシステムとしてのLarge Language Models(LLM)の注意機構をモデル化し、繰り返しやバイアスのような現象を第一原理で説明する。この仮説に基づいて、プロダクショングレードの GPT-2 モデルから完全な Query-Key 重み行列を抽出し、注目ヘッド毎に対応する実効ハミルトニアンを導出する。これらのハミルトニアンから分析的 \textit{phase boundary} logit gap criteria を得ると、どのトークンが与えられたコンテキストに対して次のトークン分布を支配するべきかを予測することができる。 20個のファクトリコールプロンプトの144個のヘッドに対する体系的評価は、理論的なロジットギャップとモデルの経験的トークンランキング(r\approx-0.70$, $p<10^{-3}$)の間に強い負の相関を示す。さらに、スピンバス予測に最も適した頭部の抑制は、出力確率の予想されるシフトを誘導し、偶然の関連性よりも因果関係を確かめることを示す。本研究は, 生産段階モデルにおけるスピンバス類似性の最初の強い実証的証拠を提供するものである。この検証は、難解で物理学にインスパイアされた、解釈可能なレンズを提供するだけでなく、理論凝縮物質物理学とAIの間のギャップを埋める新しい生成モデルの基盤を提供する。

関連論文リスト

Graph Stochastic Neural Process for Inductive Few-shot Knowledge Graph Completion [63.68647582680998]
I-FKGC(inductive few-shot knowledge graph completion)と呼ばれる課題に焦点をあてる。帰納的推論(inductive reasoning)の概念に着想を得て,I-FKGCを帰納的推論問題とした。本稿では,仮説の連成分布をモデル化したニューラルプロセスに基づく仮説抽出器を提案する。第2のモジュールでは、この仮説に基づいて、クエリセットのトリプルが抽出された仮説と一致するかどうかをテストするグラフアテンションベースの予測器を提案する。
論文参考訳（メタデータ） (2024-08-03T13:37:40Z)
SPIN: SE(3)-Invariant Physics Informed Network for Binding Affinity Prediction [3.406882192023597]
タンパク質-リガンド結合親和性の正確な予測は、薬物開発に不可欠である。伝統的な手法は、しばしば複合体の空間情報を正確にモデル化するのに失敗する。この課題に適用可能な様々な帰納バイアスを組み込んだモデルSPINを提案する。
論文参考訳（メタデータ） (2024-07-10T08:40:07Z)
Infusing Self-Consistency into Density Functional Theory Hamiltonian Prediction via Deep Equilibrium Models [30.746062388701187]
本稿では,統合ニューラルネットワークアーキテクチャ,Deep Equilibrium Density Functional Theory Hamiltonian (DEQH)モデルを紹介する。 DEQHモデルは本質的にハミルトニアンの自己整合性の性質を捉えている。本稿では,DECと既製の機械学習モデルを組み合わせた多目的フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-06T07:05:58Z)
CogDPM: Diffusion Probabilistic Models via Cognitive Predictive Coding [62.075029712357]
本研究は認知拡散確率モデル(CogDPM)を紹介する。 CogDPMは拡散モデルの階層的サンプリング能力に基づく精度推定法と拡散モデル固有の性質から推定される精度重み付きガイダンスを備える。我々は,Universal Kindomの降水量と表面風速データセットを用いた実世界の予測タスクにCogDPMを適用した。
論文参考訳（メタデータ） (2024-05-03T15:54:50Z)
NeoSySPArtaN: A Neuro-Symbolic Spin Prediction Architecture for higher-order multipole waveforms from eccentric Binary Black Hole mergers using Numerical Relativity [0.0]
ニューラルネットワークのパワーとシンボリック回帰を組み合わせた新しいニューロシンボリックアーキテクチャ(NSA)を提案する。以上の結果から,合併におけるスピン大小予測のための頑健かつ解釈可能な枠組みが得られた。
論文参考訳（メタデータ） (2023-07-20T16:30:51Z)
Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文参考訳（メタデータ） (2023-06-15T16:30:08Z)
Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文参考訳（メタデータ） (2023-04-25T07:42:06Z)
Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文参考訳（メタデータ） (2023-04-08T07:55:36Z)
Entangling dynamics from effective rotor/spin-wave separation in U(1)-symmetric quantum spin models [0.0]
量子スピンモデルの非平衡ダイナミクスはヒルベルト空間の指数性のために最も難しいトピックである。特に重要な進化のクラスは、U(1)対称ハミルトニアンによって支配されるものである。我々は,OATモデルのダイナミクスを,電力遅延相互作用を持つシステムによって密に再現可能であることを示す。
論文参考訳（メタデータ） (2023-02-18T09:37:45Z)
A statistical approach to topological entanglement: Boltzmann machine representation of high-order irreducible correlation [6.430262211852815]
高次相関の量子アナログは、0温度の物質のトポロジカル秩序状態におけるトポロジカル絡みである。本研究では,この2つを同じ情報理論の枠組みで統一する統計的解釈を提案する。
論文参考訳（メタデータ） (2023-02-07T02:49:21Z)
Beyond the Universal Law of Robustness: Sharper Laws for Random Features and Neural Tangent Kernels [14.186776881154127]
本稿では、ランダム特徴とニューラル・タンジェント・カーネル(NTK)の2つの設定における経験的リスク最小化に焦点を当てた。ランダムな特徴に対して、モデルが任意のパラメータ化の度合いに対してロバストであることは、普遍的ロバスト性法則から生じる必要条件が満たされている場合でも証明する。本研究の結果は, 合成および標準原型データセットの数値的証拠によって裏付けられている。
論文参考訳（メタデータ） (2023-02-03T09:58:31Z)
Modeling the space-time correlation of pulsed twin beams [68.8204255655161]
パラメトリックダウンコンバージョンによって生成される絡み合ったツインビームは、画像指向アプリケーションで好まれるソースである。本研究では,時間消費数値シミュレーションと非現実的な平面波ポンプ理論のギャップを埋めることを目的とした半解析モデルを提案する。
論文参考訳（メタデータ） (2023-01-18T11:29:49Z)
Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文参考訳（メタデータ） (2020-10-15T16:39:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。