論文の概要: Hyperspherical Energy Transformer with Recurrent Depth
- arxiv url: http://arxiv.org/abs/2502.11646v2
- Date: Mon, 24 Feb 2025 02:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:46:59.870844
- Title: Hyperspherical Energy Transformer with Recurrent Depth
- Title(参考訳): 繰り返し深さを有する超球形エネルギー変換器
- Authors: Yunzhe Hu, Difan Zou, Dong Xu,
- Abstract要約: トランスフォーマーベースの基礎モデルは、膨大なパラメータと計算資源で前例のない成功を収めた。
次世代アーキテクチャを進化させるためには、高い解釈可能性と実用的な能力を持つモデルが必要である。
本報告では,バニラ変圧器のリカレント深さの代替として,textitHyper-Spherical Energy Transformer (Hyper-SET)を提案する。
- 参考スコア(独自算出の注目度): 32.04194224236952
- License:
- Abstract: Transformer-based foundation models have achieved unprecedented success with a gigantic amount of parameters and computational resources. Yet, the core building blocks of these models, the Transformer layers, and how they are arranged and configured are primarily engineered from the bottom up and driven by heuristics. For advancing next-generation architectures, it demands exploring a prototypical model that is amenable to high interpretability and of practical competence. To this end, we take a step from the top-down view and design neural networks from an energy minimization perspective. Specifically, to promote isotropic token distribution on the sphere, we formulate a modified Hopfield energy function on the subspace-embedded hypersphere, based on which Transformer layers with symmetric structures are designed as the iterative optimization for the energy function. By integrating layers with the same parameters, we propose \textit{Hyper-Spherical Energy Transformer} (Hyper-SET), an alternative to the vanilla Transformer with recurrent depth. This design inherently provides greater interpretability and allows for scaling to deeper layers without a significant increase in the number of parameters. We also empirically demonstrate that Hyper-SET achieves comparable or even superior performance on both synthetic and real-world tasks, such as solving Sudoku and masked image modeling, while utilizing fewer parameters.
- Abstract(参考訳): トランスフォーマーベースの基礎モデルは、膨大なパラメータと計算資源で前例のない成功を収めた。
しかし、これらのモデルのコアビルディングブロック、トランスフォーマー層、そしてそれらの配置と構成は、主にボトムアップから設計され、ヒューリスティックスによって駆動される。
次世代アーキテクチャを進化させるためには、高い解釈性と実用的な能力を持つプロトタイプモデルを探求する必要がある。
この目的のために、我々はトップダウンの視点から一歩踏み出し、エネルギー最小化の観点からニューラルネットワークを設計する。
具体的には、球面上の等方性トークン分布を促進するために、対称構造をもつトランスフォーマー層をエネルギー関数の反復最適化として設計した部分空間埋め込み超球面上のホップフィールドエネルギー関数を定式化する。
同じパラメータで層を統合することで,バニラ変圧器に代わる再帰深度を持つ「textit{Hyper-Spherical Energy Transformer} (Hyper-SET)」を提案する。
この設計は本質的に、より大きな解釈可能性を提供し、パラメータの数を大幅に増加させることなく、より深いレイヤへのスケーリングを可能にする。
また,より少ないパラメータを生かしながら,スドゥークの解法やマスク画像モデリングなどの実世界のタスクにおいて,Hyper-SETが同等あるいはそれ以上の性能を達成できることを実証的に実証した。
関連論文リスト
- Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。
実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-14T10:36:19Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Learning with SASQuaTCh: a Novel Variational Quantum Transformer Architecture with Kernel-Based Self-Attention [0.464982780843177]
本稿では、SASQuaT(Self-Attention Sequential Quantum Transformer Channel)という変分量子回路アーキテクチャを提案する。
提案手法は、単純なゲート演算と多次元量子フーリエ変換を用いたビジョントランスフォーマーネットワークの予測におけるカーネルベース演算子学習の最近の知見を活用する。
提案手法の有効性を検証するため,9量子ビットと少数のパラメータしか持たず,手書き桁のグレースケール画像を高い精度で同時に埋め込み,分類することが可能な画像分類タスクをシミュレーションおよびハードウェアで検討した。
論文 参考訳(メタデータ) (2024-03-21T18:00:04Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Transformer variational wave functions for frustrated quantum spin
systems [0.0]
本稿では,ニューラルネットワーク状態の新たなクラスを定義するために,複雑なパラメータを持つViTアーキテクチャの適応を提案する。
ViT波動関数の成功は、局所演算と大域演算の混合に依存する。
論文 参考訳(メタデータ) (2022-11-10T11:56:44Z) - Transformers from an Optimization Perspective [24.78739299952529]
本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
論文 参考訳(メタデータ) (2022-05-27T10:45:15Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。