論文の概要: Transformers as Intrinsic Optimizers: Forward Inference through the Energy Principle
- arxiv url: http://arxiv.org/abs/2511.00907v1
- Date: Sun, 02 Nov 2025 11:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.988911
- Title: Transformers as Intrinsic Optimizers: Forward Inference through the Energy Principle
- Title(参考訳): 固有オプティマイザとしてのトランスフォーマー:エネルギー原理による前方推論
- Authors: Ruifeng Ren, Sheng Ouyang, Huayi Tang, Yong Liu,
- Abstract要約: 本稿では、注意に基づくトランスフォーマーモデルを理解するために、レンズとしてのエネルギーの原理を再考する。
本稿では,大域エネルギー$F*$,エネルギー関数$E_i$,採用勾配降下(GD)の3つの主要成分からなる統一エネルギーベースフレームワークを提案する。
古典的なGDアルゴリズムに着想を得て、標準GDに基づく本来のアテンション定式化を運動量ベースGD、ネステロフ加速勾配(Nesterov Accelerated Gradient、NAG)およびニュートンのメソッド変種に拡張し、それぞれに対応する新しいアテンション構造を誘導する。
- 参考スコア(独自算出の注目度): 22.02194689588116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have demonstrated strong adaptability across a wide range of tasks and have become the backbone of modern Large Language Models (LLMs). However, their underlying mechanisms remain open for further exploration. The energy-based perspective has long provided a valuable principle for understanding neural computation. In this paper, we revisit the principle of energy as a lens to understand attention-based Transformer models. We present a unified energy-based framework which is composed of three key components: the global energy $F^*$, the energy function $E_i$ and the employed gradient descent (GD) form. Within this framework, standard softmax attention can be viewed as a special case of minimizing the Helmholtz free energy as $F^*$ using standard GD when $E_i$ takes the form of elastic potential energy, with residual connections ensuring that this optimization proceeds in an incremental manner. In addition, linear attentions can also be naturally incorporated into this framework by adjusting the corresponding energy forms. We also extend the above analysis to the multi-head setting, where the energy is defined across multiple low-dimensional subspaces. Building on this framework, we propose energy-based modifications of attention structures. Inspired by classical GD algorithms, we extend the original attention formulation based on standard GD to the momentum-based GD, Nesterov Accelerated Gradient (NAG), and Newton's method variants, each inducing a corresponding new attention structure. Our experiments provide preliminary support for the potential of the energy-based framework for designing attention mechanisms.
- Abstract(参考訳): トランスフォーマーは幅広いタスクに強い適応性を示し、現代のLarge Language Models (LLM) のバックボーンとなっている。
しかし、その基盤となるメカニズムは、さらなる探査のためには未解決のままである。
エネルギーに基づく観点は、長い間、神経計算を理解するための貴重な原則を提供してきた。
本稿では、注意に基づくトランスフォーマーモデルを理解するために、レンズとしてのエネルギーの原理を再考する。
本稿では,大域エネルギー$F^*$,エネルギー関数$E_i$,採用勾配勾配(GD)形式という,3つの重要な構成要素からなる統一エネルギーベースフレームワークを提案する。
この枠組みの中では、標準ソフトマックスの注意は、ヘルムホルツ自由エネルギーを標準GDを使用する場合、$E_i$が弾性ポテンシャルエネルギーの形を取るときの$F^*$として最小化する特別な場合と見なすことができる。
さらに、対応するエネルギー形態を調整することで、線形注意をこの枠組みに自然に組み込むこともできる。
また、上記の解析を複数の低次元部分空間でエネルギーが定義されるマルチヘッド設定に拡張する。
この枠組みに基づいて,注意構造をエネルギーベースで修正する手法を提案する。
古典的なGDアルゴリズムに着想を得て、標準GDに基づくオリジナルの注意定式化を運動量ベースGD、ネステロフ加速勾配(Nesterov Accelerated Gradient、NAG)、ニュートンの手法の変種に拡張し、それぞれに対応する新しい注意構造を誘導する。
本実験は、注意機構を設計するためのエネルギーベースフレームワークの可能性に対する予備的な支援を提供する。
関連論文リスト
- Hyper-SET: Designing Transformers via Hyperspherical Energy Minimization [32.04194224236952]
我々は超球面上での最大推定値としてトークン力学を定式化する。
我々は,バニラ変圧器の逐次的な代替手段であるtextitHyper-Spherical Energy Transformer (Hyper-SET) を提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:11Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention [0.7770029179741429]
条件付き拡散モデルは、視覚コンテンツ生成において顕著な成功を収めている。
非条件ガイダンスを拡張しようとする最近の試みはテクニックに依存しており、その結果、最適以下の生成品質が得られる。
Smoothed Energy Guidance (SEG) を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:59:09Z) - On Feature Diversity in Energy-based Models [98.78384185493624]
エネルギーベースモデル(EBM)は通常、異なる特徴の組み合わせを学習し、入力構成ごとにエネルギーマッピングを生成する内部モデルによって構成される。
EBMのほぼ正しい(PAC)理論を拡張し,EBMの性能に及ぼす冗長性低減の影響を解析した。
論文 参考訳(メタデータ) (2023-06-02T12:30:42Z) - Energy Transformer [64.22957136952725]
我々の研究は、機械学習における有望な3つのパラダイム、すなわち注意機構、エネルギーベースモデル、連想記憶の側面を組み合わせる。
本稿では,エネルギー変換器(ET,Energy Transformer)と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-14T18:51:22Z) - SGEM: stochastic gradient with energy and momentum [0.0]
我々は、一般の非GEM最適化問題のクラスを解くために、S, Gradient with Energy Momentumを提案する。
SGEMはエネルギー依存収束率を導出するためにエネルギーと運動量の両方を包含する。
以上の結果より,SGEMはAEGDやニューラルトレーニングよりも早く収束することが示唆された。
論文 参考訳(メタデータ) (2022-08-03T16:45:22Z) - Learning Generative Vision Transformer with Energy-Based Latent Space
for Saliency Prediction [51.80191416661064]
本稿では,有意な物体検出に先立って,潜伏変数を持つ新しい視覚変換器を提案する。
ビジョントランスネットワークとエネルギーベース先行モデルの両方は、マルコフ連鎖モンテカルロによる最大推定を通じて共同で訓練される。
生成型視覚変換器により、画像から容易に画素単位の不確実性マップを得ることができ、画像から唾液濃度を予測するためのモデル信頼度を示す。
論文 参考訳(メタデータ) (2021-12-27T06:04:33Z) - Energy-Based Processes for Exchangeable Data [109.04978766553612]
エネルギーベースモデルを交換可能なデータに拡張するために、エネルギーベースプロセス(EBP)を導入する。
EBPの鍵となる利点は、集合上のより柔軟な分布を、その濃度を制限することなく表現できることである。
本研究では,多種多様なタスクにおける最先端性能を実演する電子掲示板の効率的な訓練手順を開発する。
論文 参考訳(メタデータ) (2020-03-17T04:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。