論文の概要: Hyper-SET: Designing Transformers via Hyperspherical Energy Minimization
- arxiv url: http://arxiv.org/abs/2502.11646v3
- Date: Fri, 30 May 2025 09:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 17:26:04.951756
- Title: Hyper-SET: Designing Transformers via Hyperspherical Energy Minimization
- Title(参考訳): 超SET:超球面エネルギー最小化による変圧器の設計
- Authors: Yunzhe Hu, Difan Zou, Dong Xu,
- Abstract要約: 我々は超球面上での最大推定値としてトークン力学を定式化する。
我々は,バニラ変圧器の逐次的な代替手段であるtextitHyper-Spherical Energy Transformer (Hyper-SET) を提案する。
- 参考スコア(独自算出の注目度): 32.04194224236952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have achieved remarkable success, but their core components, Transformer layers, are largely heuristics-driven and engineered from the bottom up, calling for a prototypical model with high interpretability and practical competence. To this end, we conceptualize a principled, top-down approach grounded in energy-based interpretation. Specifically, we formalize token dynamics as a joint maximum likelihood estimation on the hypersphere, featuring two properties: semantic alignment in the high-dimensional space and distributional uniformity in the low-dimensional space. By quantifying them with extended Hopfield energy functions, we instantiate this idea as a constrained energy minimization problem, which enables designs of symmetric attention and feedforward modules with RMS normalization. We further present \textit{Hyper-Spherical Energy Transformer} (Hyper-SET), a recurrent-depth alternative to vanilla Transformers naturally emerging from iterative energy optimization on the hypersphere. With shared parameters across layers, Hyper-SET can scale to arbitrary depth with fewer parameters. Theoretically grounded and compact, it achieves competitive or superior performance across diverse tasks, including Sudoku solving, image classification, and masked image modeling. We also design novel variations under the proposed general principle, such as linear attention and gated feedforward layer. Moreover, we showcase its scalability with depth-wise LoRA. Our results highlight Hyper-SET as a step toward interpretable and principled Transformer design.
- Abstract(参考訳): トランスフォーマーベースのモデルは非常に成功したが、コアコンポーネントであるトランスフォーマー層は概ねヒューリスティックであり、ボトムアップから設計されており、高い解釈性と実用的な能力を持つプロトタイプモデルを求めている。
この目的のために、エネルギーベースの解釈に基づく原則化されたトップダウンアプローチを概念化する。
具体的には,高次元空間における意味的アライメントと低次元空間における分布均一性という2つの特性を特徴とする,超球面上での最大推定値としてトークンダイナミクスを定式化する。
拡張ホップフィールドエネルギー関数でそれらを定量化することにより、このアイデアを制約付きエネルギー最小化問題としてインスタンス化し、対称的な注意とRMS正規化を伴うフィードフォワードモジュールの設計を可能にする。
さらに,超球面上の反復エネルギー最適化から自然に現れるバニラ変圧器に代わる再帰的な代替手段である \textit{Hyper-Spherical Energy Transformer} (Hyper-SET) を提示する。
レイヤ間でパラメータを共有することで、Hyper-SETはより少ないパラメータで任意の深さにスケールできる。
理論的に基礎がありコンパクトであり、数独解法、画像分類、マスク付き画像モデリングなど様々なタスクにおいて、競争力や優れたパフォーマンスを達成する。
また、線形注意層やゲートフィードフォワード層といった一般原理に基づく新しいバリエーションを設計する。
さらに,そのスケーラビリティを奥行きの LoRA で示す。
この結果から,Hyper-SETは解釈可能で原理化されたトランスフォーマー設計へのステップとして注目されている。
関連論文リスト
- Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。
提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。
我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-03T09:12:14Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Learning with SASQuaTCh: a Novel Variational Quantum Transformer Architecture with Kernel-Based Self-Attention [0.464982780843177]
本稿では、SASQuaT(Self-Attention Sequential Quantum Transformer Channel)という変分量子回路アーキテクチャを提案する。
提案手法は、単純なゲート演算と多次元量子フーリエ変換を用いたビジョントランスフォーマーネットワークの予測におけるカーネルベース演算子学習の最近の知見を活用する。
提案手法の有効性を検証するため,9量子ビットと少数のパラメータしか持たず,手書き桁のグレースケール画像を高い精度で同時に埋め込み,分類することが可能な画像分類タスクをシミュレーションおよびハードウェアで検討した。
論文 参考訳(メタデータ) (2024-03-21T18:00:04Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Transformer variational wave functions for frustrated quantum spin
systems [0.0]
本稿では,ニューラルネットワーク状態の新たなクラスを定義するために,複雑なパラメータを持つViTアーキテクチャの適応を提案する。
ViT波動関数の成功は、局所演算と大域演算の混合に依存する。
論文 参考訳(メタデータ) (2022-11-10T11:56:44Z) - Transformers from an Optimization Perspective [24.78739299952529]
本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
論文 参考訳(メタデータ) (2022-05-27T10:45:15Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。