Fugu-MT 論文翻訳(概要): Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy

論文の概要: Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy

arxiv url: http://arxiv.org/abs/2603.06875v1
Date: Fri, 06 Mar 2026 20:50:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:13.298071
Title: Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy
Title（参考訳）: 現代ホップフィールドエネルギーにおけるランゲヴィンダイナミクスによる確率的注意
Authors: Abdulrahman Alswaidan, Jeffrey D. Varner,
Abstract要約: 本研究では,Langevinの分布から採取したサンプルが,単温度で制御されたトレーニングフリーのサンプル装置であるEmphstochastic attentionを導出することを示す。エネルギー勾配はアテンションマップと等しいため、スコアネットワーク、トレーニングループ、学習モデルを必要としない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Attention heads retrieve: given a query, they return a softmax-weighted average of stored values. We show that this computation is one step of gradient descent on a classical energy function, and that Langevin sampling from the corresponding distribution yields \emph{stochastic attention}: a training-free sampler controlled by a single temperature. Lowering the temperature gives exact retrieval; raising it gives open-ended generation. Because the energy gradient equals the attention map, no score network, training loop, or learned model is required. We validate on four domains (64 to 4,096 dimensions). At generation temperature, stochastic attention is 2.6 times more novel and 2.0 times more diverse than the best learned baseline (a variational autoencoder trained on the same patterns), while matching a Metropolis-corrected gold standard. A simple signal-to-noise rule selects the operating temperature for any dimension. The approach requires no architectural changes and extends naturally to retrieval-augmented generation and in-context learning.
Abstract（参考訳）: アテンションヘッド検索:クエリが与えられたら、保存された値の平均をソフトマックスで重み付けした値を返す。この計算は古典的エネルギー関数の勾配降下の1ステップであり、対応する分布からランゲヴィンをサンプリングすると、単一の温度で制御される訓練不要なサンプルラーである 'emph{stochastic attention} が得られることを示す。温度を下げることによって正確な検索が可能になる。エネルギー勾配はアテンションマップと等しいため、スコアネットワーク、トレーニングループ、学習モデルを必要としない。 4つの領域(64次元から4,096次元)で検証する。世代別温度では、確率的注意力は最高の学習ベースライン(同じパターンで訓練された変分オートエンコーダ)の2.6倍の斬新さと2.0倍の多様性がある。単純な信号対雑音規則は任意の次元の動作温度を選択する。このアプローチはアーキテクチャの変更を必要とせず、自然に検索強化された生成とコンテキスト内学習に拡張する。

関連論文リスト

Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking [44.614763110719274]
我々は、グルーキング現象、すなわち遅延一般化について研究する。本稿では,2層非線形ネットワークのグルーキング動作の3つの重要な段階を捉える新しいフレームワークを提案する。私たちの研究は、体重減少、学習率、グルーキングにおけるサンプルサイズといったハイパースの役割に光を当てています。
論文参考訳（メタデータ） (2025-09-25T20:08:09Z)
GradPower: Powering Gradients for Faster Language Model Pre-Training [15.650619834236789]
GradPowerは、言語モデルの事前トレーニングを加速するための軽量な変換技術である。たった1行のコードの変更だけで、ベースの内部ロジックを変更する必要はない。多様なアーキテクチャで終端損失を継続的に減少させる。
論文参考訳（メタデータ） (2025-05-30T06:49:57Z)
Learning to Scale Logits for Temperature-Conditional GFlowNets [77.36931187299896]
温度条件付きGFlowNetのトレーニングを大幅に高速化する新しいアーキテクチャ設計である textitLogit-scaling GFlowNets (Logit-GFN) を提案する。温度の学習関数がポリシーのロジットを直接スケールするために使用されると、課題は大幅に減少する。
論文参考訳（メタデータ） (2023-10-04T13:45:56Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文参考訳（メタデータ） (2023-04-17T20:59:49Z)
Gradient Estimation for Binary Latent Variables via Gradient Variance Clipping [6.234350105794441]
勾配推定はしばしば、離散潜在変数を持つ生成モデルに適合するために必要である。 DisARMや他の推定器は、パラメータ空間の境界付近でばらつきを爆発させる可能性がある。パラメータ空間の境界における分散を小さくする勾配推定器 textitbitflip-1 を提案する。
論文参考訳（メタデータ） (2022-08-12T05:37:52Z)
Comparing Classes of Estimators: When does Gradient Descent Beat Ridge Regression in Linear Models? [46.01087792062936]
クラス内のEmphbestメソッドの相対的性能による推定器のクラスの比較を行う。これにより、学習アルゴリズムのチューニング感度を厳格に定量化できます。
論文参考訳（メタデータ） (2021-08-26T16:01:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。