論文の概要: Free Energy Mixer
- arxiv url: http://arxiv.org/abs/2602.07160v1
- Date: Fri, 06 Feb 2026 20:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.479913
- Title: Free Energy Mixer
- Title(参考訳): 自由エネルギーミキサー
- Authors: Jiecheng Lu, Shihao Yang,
- Abstract要約: フリー・エナジー・ミキサー(FEM)はそれを前処理として扱い、複雑さが変化しない値認識後読みを生成する。
FEMは、標準およびリニアアテンション、線形RNNとSSMを備えたプラグアンドプレイである。
NLP、ビジョン、タイムシリーズにおいて、一致したパラメータ予算での強いベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 5.790131419057591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard attention stores keys/values losslessly but reads them via a per-head convex average, blocking channel-wise selection. We propose the Free Energy Mixer (FEM): a free-energy (log-sum-exp) read that applies a value-driven, per-channel log-linear tilt to a fast prior (e.g., from queries/keys in standard attention) over indices. Unlike methods that attempt to improve and enrich the $(q,k)$ scoring distribution, FEM treats it as a prior and yields a value-aware posterior read at unchanged complexity, smoothly moving from averaging to per-channel selection as the learnable inverse temperature increases, while still preserving parallelism and the original asymptotic complexity ($O(T^2)$ for softmax; $O(T)$ for linearizable variants). We instantiate a two-level gated FEM that is plug-and-play with standard and linear attention, linear RNNs and SSMs. It consistently outperforms strong baselines on NLP, vision, and time-series at matched parameter budgets.
- Abstract(参考訳): 標準アテンションはキー/バリューを損失なく保存するが、ヘッド単位の凸平均で読み出し、チャンネルワイズをブロックする。
提案するフリーエナジー・ミキサー(FEM)は,インジケートよりも高速な先行(例えば,クエリ/キーから)に値駆動の対数線形傾きを適用可能なフリーエネルギ(log-sum-exp)読出装置である。
FEMは、$(q,k)$のスコアリング分布を改善し、強化しようとする手法とは異なり、それを前処理として扱い、学習可能な逆温度が増加するにつれて平均値からチャネル間選択へと滑らかに移動し、並列性と元の漸近複雑性(ソフトマックスではO(T^2)$;$O(T)$)$を線形化可能な変量に対して保存する。
標準及び線形アテンション、線形RNN、SSMをプラグイン・アンド・プレイする2レベルゲートFEMをインスタンス化する。
NLP、ビジョン、タイムシリーズにおいて、一致したパラメータ予算での強いベースラインを一貫して上回ります。
関連論文リスト
- Analysis of Schedule-Free Nonconvex Optimization [0.0]
大規模学習アルゴリズムの根底にある一階法であるが、その収束性は慎重にスケジュールされたステップのヒンジを保証し、前例のないスケジュール自由地平線に依存する。
我々の$Oレートが$O(log T)$に束縛されていることを示す。
我々の研究はSFの地平線を拡張し、最適な非滑らかな速度で将来の方向をグラフ化する。
論文 参考訳(メタデータ) (2025-08-08T22:54:35Z) - Parameter-free Optimal Rates for Nonlinear Semi-Norm Contractions with Applications to $Q$-Learning [3.686808512438363]
平均逆テキストit$Q$-learningとtextitTD-learningを解くアルゴリズムは、半ノルムの収縮を伴うことが多い。
本研究では, 非線形摂動を含む線形再帰として平均誤差をリキャストし, 半ノルムの縮約と好ましく誘導されるノルムの単調性とを結合することにより非線形性をテームする。
パラメータフリーな$tildeO (1/sqrtt)$$Q$学習の最適レートは、平均逆および指数関数的に割引された設定の両方で得られる。
論文 参考訳(メタデータ) (2025-08-08T03:35:29Z) - Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。
線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Kernel Support Vector Machine Classifiers with the $\ell_0$-Norm Hinge
Loss [3.007949058551534]
Support Vector Machine (SVM)は、バイナリ分類問題において最も成功した機械学習技術の1つである。
本論文は, ヒンジ損失を持つベクトル($ell$-KSVM)に集中し, ヒンジ損失と$ell_$normの複合関数である。
合成データセットと実データセットの実験は、$ell_$-KSVMが標準のKSVMと同等の精度を達成可能であることを示すために照らされている。
論文 参考訳(メタデータ) (2023-06-24T14:52:44Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - Optimal and instance-dependent guarantees for Markovian linear stochastic approximation [47.912511426974376]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z) - Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。
この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文 参考訳(メタデータ) (2021-07-01T16:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。