論文の概要: Revisiting Transformer Layer Parameterization Through Causal Energy Minimization
- arxiv url: http://arxiv.org/abs/2605.07588v1
- Date: Fri, 08 May 2026 11:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.008696
- Title: Revisiting Transformer Layer Parameterization Through Causal Energy Minimization
- Title(参考訳): 因果エネルギー最小化による変圧器層パラメータ化の再検討
- Authors: Jin Xu, Camille Couturier, Victor Rühle, Saravan Rajmohan, James Hensman,
- Abstract要約: 本稿では,トランスフォーマー層を条件付きエネルギー関数の最適化ステップとして再キャストするフレームワークであるCausal Energy Minimization (CEM)を紹介する。
我々は、CEMがトランスフォーマーアーキテクチャをエネルギーベースモデルに接続し、エネルギー誘導層設計のさらなる探求を動機付けていることを示す。
- 参考スコア(独自算出の注目度): 19.719105230471282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer blocks typically combine multi-head attention (MHA) for token mixing with gated MLPs for token-wise feature transformation, yet many choices in their parameterization remain largely empirical. We introduce Causal Energy Minimization (CEM), a framework that recasts Transformer layers as optimization steps on conditional energy functions while explicitly accounting for layer parameterization. Extending prior energy-based interpretations of attention, CEM shows that weight-tied MHA can be derived as a gradient update on an interaction energy, and that a gated MLP with shared up/down projections can be viewed through an element-wise energy. This perspective identifies a design space for Transformer layers that includes within-layer weight sharing, diagonal-plus-low-rank interactions, lightweight preconditioners, and recursive updates. We evaluate CEM-derived layers in language-modeling experiments at the moderate hundred-million-parameter scale. Despite their constrained parameterizations, these layers train stably and can match corresponding Transformer baselines. Overall, our results suggest that CEM provides a useful lens for understanding Transformer layer parameterization, connecting Transformer architectures to energy-based models and motivating further exploration of energy-guided layer designs.
- Abstract(参考訳): トランスフォーマーブロックは通常、トークンミキシングにマルチヘッドアテンション(MHA)とトークンワイドの特徴変換にゲートMLPを組み合わせるが、そのパラメータ化における多くの選択は、主に経験的のままである。
本稿では,トランスフォーマー層を条件付きエネルギー関数の最適化ステップとして再キャストするフレームワークであるCausal Energy Minimization (CEM)を紹介する。
従来のエネルギーに基づく注意の解釈を拡張して、CEMは、重み付きMHAは相互作用エネルギーの勾配更新として導き出すことができ、共有アップダウンプロジェクションを持つゲート型MLPは要素ワイズエネルギーを通して見ることができることを示した。
この観点では、トランスフォーマー層の設計空間として、層内重量共有、対角+低ランクの相互作用、軽量プレコンディショナ、再帰的な更新が含まれる。
言語モデル実験において,CEM由来の層を中等度スケールで評価した。
制約のあるパラメータ化にもかかわらず、これらのレイヤは安定してトレーニングされ、対応するTransformerベースラインにマッチする。
以上の結果から,CEMはトランスフォーマー層パラメータ化の理解,トランスフォーマーアーキテクチャとエネルギーモデルとの結合,エネルギー誘導層設計のさらなる探索に有用なレンズを提供すると考えられる。
関連論文リスト
- YuriiFormer: A Suite of Nesterov-Accelerated Transformers [62.40952219538543]
本稿では,トークン埋め込みに作用する最適化アルゴリズムの繰り返しとして,トランスフォーマー層を解釈する変分フレームワークを提案する。
この観点では、自己注意は相互作用エネルギーの勾配ステップを実装し、層はポテンシャルエネルギーの勾配更新に対応する。
標準のGPT型変圧器は、この2つのエネルギーの間でLie-Trotterスプリッティングによって実装された複合目的物のバニラ勾配降下として出現する。
論文 参考訳(メタデータ) (2026-01-30T18:06:21Z) - Hyper-SET: Designing Transformers via Hyperspherical Energy Minimization [32.04194224236952]
我々は超球面上での最大推定値としてトークン力学を定式化する。
我々は,バニラ変圧器の逐次的な代替手段であるtextitHyper-Spherical Energy Transformer (Hyper-SET) を提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:11Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Transformers from an Optimization Perspective [24.78739299952529]
本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
論文 参考訳(メタデータ) (2022-05-27T10:45:15Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。