論文の概要: YuriiFormer: A Suite of Nesterov-Accelerated Transformers
- arxiv url: http://arxiv.org/abs/2601.23236v1
- Date: Fri, 30 Jan 2026 18:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.602677
- Title: YuriiFormer: A Suite of Nesterov-Accelerated Transformers
- Title(参考訳): YuriiFormer: Nesterov加速トランスフォーマーのスイート
- Authors: Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet,
- Abstract要約: 本稿では,トークン埋め込みに作用する最適化アルゴリズムの繰り返しとして,トランスフォーマー層を解釈する変分フレームワークを提案する。
この観点では、自己注意は相互作用エネルギーの勾配ステップを実装し、層はポテンシャルエネルギーの勾配更新に対応する。
標準のGPT型変圧器は、この2つのエネルギーの間でLie-Trotterスプリッティングによって実装された複合目的物のバニラ勾配降下として出現する。
- 参考スコア(独自算出の注目度): 62.40952219538543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a variational framework that interprets transformer layers as iterations of an optimization algorithm acting on token embeddings. In this view, self-attention implements a gradient step of an interaction energy, while MLP layers correspond to gradient updates of a potential energy. Standard GPT-style transformers emerge as vanilla gradient descent on the resulting composite objective, implemented via Lie--Trotter splitting between these two energy functionals. This perspective enables principled architectural design using classical optimization ideas. As a proof of concept, we introduce a Nesterov-style accelerated transformer that preserves the same attention and MLP oracles. The resulting architecture consistently outperforms a nanoGPT baseline on TinyStories and OpenWebText, demonstrating that optimization-theoretic insights can translate into practical gains.
- Abstract(参考訳): 本稿では,トークン埋め込みに作用する最適化アルゴリズムの繰り返しとして,トランスフォーマー層を解釈する変分フレームワークを提案する。
この観点では、自己アテンションは相互作用エネルギーの勾配ステップを実装し、MLP層はポテンシャルエネルギーの勾配更新に対応する。
標準GPT型変圧器は、この2つのエネルギー汎関数間の分割をLie-Trotterによって実現した合成目的のバニラ勾配降下として出現する。
この観点は、古典的な最適化のアイデアを使って、原則化されたアーキテクチャ設計を可能にする。
概念実証として,同じ注意とMPPオーラクルを保持するネステロフ型加速変圧器を導入する。
結果として得られるアーキテクチャは、TinyStoriesとOpenWebTextのナノGPTベースラインを一貫して上回り、最適化理論的な洞察が実用的な利益をもたらすことを実証している。
関連論文リスト
- A Constrained Optimization Perspective of Unrolled Transformers [77.12297732942095]
我々は、最適化降下アルゴリズムのように振る舞う変圧器の訓練のための制約付き最適化フレームワークを導入する。
拘束型変圧器は摂動の強靭性を実現し,より高い分布分布一般化を維持する。
論文 参考訳(メタデータ) (2026-01-24T02:12:39Z) - Wavy Transformer [5.4806374384787695]
本稿では,第2次波動力学に基づく新しい注目層を構成するWavy Transformerを提案する。
また,チェーンルールの下での物理的状態-速度関係を維持するために,フィードフォワードネットワークと正規化層を導入する。
論文 参考訳(メタデータ) (2025-08-18T10:03:38Z) - Plain Transformers Can be Powerful Graph Learners [64.50059165186701]
研究者たちは、Transformerをグラフ学習に移行しようとしたが、ほとんどの高度なGraph Transformerは、普通のTransformerから遠く離れている。
この研究は、普通のTransformerアーキテクチャが強力なグラフ学習者になれることを示した。
論文 参考訳(メタデータ) (2025-04-17T02:06:50Z) - Hyper-SET: Designing Transformers via Hyperspherical Energy Minimization [32.04194224236952]
我々は超球面上での最大推定値としてトークン力学を定式化する。
我々は,バニラ変圧器の逐次的な代替手段であるtextitHyper-Spherical Energy Transformer (Hyper-SET) を提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:11Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Transformers from an Optimization Perspective [24.78739299952529]
本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
論文 参考訳(メタデータ) (2022-05-27T10:45:15Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。