論文の概要: Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy
- arxiv url: http://arxiv.org/abs/2603.06875v2
- Date: Tue, 10 Mar 2026 23:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.053943
- Title: Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy
- Title(参考訳): 現代ホップフィールドエネルギーにおけるランゲヴィンダイナミクスによる確率的注意
- Authors: Abdulrahman Alswaidan, Jeffrey D. Varner,
- Abstract要約: 本研究では,Langevinサンプリングが注目され,単一温度で制御される無トレーニングサンプルが注目されることを示す。
エネルギー勾配はアテンションマップと等しいため、スコアネットワーク、トレーニングループ、学習モデルを必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention heads retrieve: given a query, they return a softmax-weighted average of stored values. We show that this computation is one step of gradient descent on a classical energy function, and that Langevin sampling from the corresponding distribution yields stochastic attention: a training-free sampler controlled by a single temperature. Lowering the temperature gives exact retrieval; raising it gives open-ended generation. Because the energy gradient equals the attention map, no score network, training loop, or learned model is required. We derive a closed-form entropy inflection condition that identifies the retrieval-to-generation transition temperature for any memory geometry, with a scaling law $β^*\!\sim\!\sqrt{d}$ for random patterns. We validate on five domains (64 to 4,096 dimensions). On MNIST digit images, stochastic attention is $2.6{\times}$ more novel and $2.0{\times}$ more diverse than the best learned baseline (a VAE trained on the same patterns), while matching a Metropolis-corrected gold standard. On protein sequences from the Pfam RRM family, the generation regime achieves $6.9{\times}$ lower amino acid composition divergence than the VAE (KL $= 0.060$ vs.\ $0.416$) at matched novelty, demonstrating that the training-free score function preserves family-level fidelity that learned models lose. A denoising diffusion baseline (DDPM) fails across all memory sizes tested ($K = 100$ to $3{,}500$), producing samples indistinguishable from isotropic noise. The approach requires no architectural changes to the underlying attention mechanism.
- Abstract(参考訳): アテンションヘッド検索:クエリが与えられたら、保存された値の平均をソフトマックスで重み付けした値を返す。
この計算は,古典的エネルギー関数の勾配降下の一段階であり,対応する分布からのランゲヴィンサンプリングは,単一温度で制御される学習自由サンプリング器である確率的注意を与えることを示す。
温度を下げることによって正確な検索が可能になる。
エネルギー勾配はアテンションマップと等しいため、スコアネットワーク、トレーニングループ、学習モデルを必要としない。
我々は、任意のメモリ幾何学における検索から世代間遷移温度を特定する閉形式エントロピーインフレクション条件を、スケーリング法則$β^*\!で導出する。
ようこそ!
ランダムパターンに対して \sqrt{d}$。
5つの領域(64次元から4,096次元)で検証する。
MNISTのディジット画像では、確率的注意力は2.6{\times}$より新しいもので、2.0{\times}$は最高の学習ベースライン(同じパターンで訓練されたVAE)よりも多様である。
Pfam RRMファミリーのタンパク質配列について、生成機構は、VAE(KL $=0.060$ vs.)よりも低いアミノ酸組成の分岐を達成する。
トレーニングなしスコア関数は、学習したモデルが失う家族レベルの忠実さを保っていることを示す。
微分拡散ベースライン(DDPM)は、テストされた全てのメモリサイズ(K = 100$ to $3{,}500$)で失敗し、等方性ノイズと区別できないサンプルを生成する。
このアプローチでは、基盤となる注意機構にアーキテクチャ的な変更は必要ありません。
関連論文リスト
- Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking [44.614763110719274]
我々は、グルーキング現象、すなわち遅延一般化について研究する。
本稿では,2層非線形ネットワークのグルーキング動作の3つの重要な段階を捉える新しいフレームワークを提案する。
私たちの研究は、体重減少、学習率、グルーキングにおけるサンプルサイズといったハイパースの役割に光を当てています。
論文 参考訳(メタデータ) (2025-09-25T20:08:09Z) - GradPower: Powering Gradients for Faster Language Model Pre-Training [15.650619834236789]
GradPowerは、言語モデルの事前トレーニングを加速するための軽量な変換技術である。
たった1行のコードの変更だけで、ベースの内部ロジックを変更する必要はない。
多様なアーキテクチャで終端損失を継続的に減少させる。
論文 参考訳(メタデータ) (2025-05-30T06:49:57Z) - Learning to Scale Logits for Temperature-Conditional GFlowNets [77.36931187299896]
温度条件付きGFlowNetのトレーニングを大幅に高速化する新しいアーキテクチャ設計である textitLogit-scaling GFlowNets (Logit-GFN) を提案する。
温度の学習関数がポリシーのロジットを直接スケールするために使用されると、課題は大幅に減少する。
論文 参考訳(メタデータ) (2023-10-04T13:45:56Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - Gradient Estimation for Binary Latent Variables via Gradient Variance
Clipping [6.234350105794441]
勾配推定はしばしば、離散潜在変数を持つ生成モデルに適合するために必要である。
DisARMや他の推定器は、パラメータ空間の境界付近でばらつきを爆発させる可能性がある。
パラメータ空間の境界における分散を小さくする勾配推定器 textitbitflip-1 を提案する。
論文 参考訳(メタデータ) (2022-08-12T05:37:52Z) - Comparing Classes of Estimators: When does Gradient Descent Beat Ridge
Regression in Linear Models? [46.01087792062936]
クラス内のEmphbestメソッドの相対的性能による推定器のクラスの比較を行う。
これにより、学習アルゴリズムのチューニング感度を厳格に定量化できます。
論文 参考訳(メタデータ) (2021-08-26T16:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。