論文の概要: Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory
- arxiv url: http://arxiv.org/abs/2405.08707v2
- Date: Thu, 28 Nov 2024 03:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:15:50.131625
- Title: Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory
- Title(参考訳): スケーリング法則を超えて - 連想記憶によるトランスフォーマーのパフォーマンス理解
- Authors: Xueyan Niu, Bo Bai, Lei Deng, Wei Han,
- Abstract要約: Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
- 参考スコア(独自算出の注目度): 11.3128832831327
- License:
- Abstract: Increasing the size of a Transformer does not always lead to enhanced performance. This phenomenon cannot be explained by the empirical scaling laws. Furthermore, the model's enhanced performance is closely associated with its memorization of the training samples. We present a theoretical framework that sheds light on the memorization during pre-training of transformer-based language models. We model the behavior of Transformers with associative memories using Hopfield networks, such that each transformer block effectively conducts an approximate nearest-neighbor search. In particular, the energy function in modern continuous Hopfield networks serves as an explanation for the attention mechanism, which we approximate with a distance-based energy function. By observing that the softmax function corresponds to the gradient of the LogSumExp function in the energy, and employing the majorization-minimization technique, we construct a global energy function designed to capture the layered architecture. We demonstrate a dependency between the model size and the dataset size for the model to achieve optimal performance, and we show that the achievable cross-entropy loss is bounded from below.
- Abstract(参考訳): Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
この現象は経験的スケーリング法則では説明できない。
さらに、モデルの強化性能は、トレーニングサンプルの記憶と密接に関連している。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
ホップフィールドネットワークを用いた連想記憶を用いた変圧器の挙動をモデル化し,各変圧器ブロックが近似近傍探索を効果的に行うようにした。
特に、現代の連続ホップフィールドネットワークにおけるエネルギー関数は、距離に基づくエネルギー関数に近似した注意機構の説明として機能する。
ソフトマックス関数はエネルギー中のLogSumExp関数の勾配に対応することを観測し、偏極最小化手法を用いて階層構造を捉えるように設計された大域エネルギー関数を構築する。
最適性能を達成するために,モデルのサイズとデータセットサイズの依存性を示すとともに,達成可能なクロスエントロピー損失が下から有界であることを示す。
関連論文リスト
- Hyperspherical Energy Transformer with Recurrent Depth [32.04194224236952]
トランスフォーマーベースの基礎モデルは、膨大なパラメータと計算資源で前例のない成功を収めた。
次世代アーキテクチャを進化させるためには、高い解釈可能性と実用的な能力を持つモデルが必要である。
本報告では,バニラ変圧器のリカレント深さの代替として,textitHyper-Spherical Energy Transformer (Hyper-SET)を提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:11Z) - Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference [0.30104001512119216]
高速でエネルギー効率のよい推論モデルの構築は、様々なトランスフォーマーベースのアプリケーションを実現するために不可欠である。
拡張有限差分法によりLUTネットワークを直接学習する手法を構築した。
これにより、トランスベースのモデルに対する計算的でエネルギー効率の良い推論ソリューションが実現される。
論文 参考訳(メタデータ) (2024-11-04T05:38:56Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - vHeat: Building Vision Models upon Heat Conduction [63.00030330898876]
vHeatは、高い計算効率とグローバルな受容場の両方を同時に達成する、新しいビジョンバックボーンモデルである。
基本的な考え方は、画像パッチを熱源として概念化し、それらの相関の計算を熱エネルギーの拡散としてモデル化することである。
論文 参考訳(メタデータ) (2024-05-26T12:58:04Z) - Learning with SASQuaTCh: a Novel Variational Quantum Transformer Architecture with Kernel-Based Self-Attention [0.464982780843177]
本稿では、SASQuaT(Self-Attention Sequential Quantum Transformer Channel)という変分量子回路アーキテクチャを提案する。
提案手法は、単純なゲート演算と多次元量子フーリエ変換を用いたビジョントランスフォーマーネットワークの予測におけるカーネルベース演算子学習の最近の知見を活用する。
提案手法の有効性を検証するため,9量子ビットと少数のパラメータしか持たず,手書き桁のグレースケール画像を高い精度で同時に埋め込み,分類することが可能な画像分類タスクをシミュレーションおよびハードウェアで検討した。
論文 参考訳(メタデータ) (2024-03-21T18:00:04Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Energy Transformer [64.22957136952725]
我々の研究は、機械学習における有望な3つのパラダイム、すなわち注意機構、エネルギーベースモデル、連想記憶の側面を組み合わせる。
本稿では,エネルギー変換器(ET,Energy Transformer)と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-14T18:51:22Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - A tensor network representation of path integrals: Implementation and
analysis [0.0]
ファインマン・ヴァーノン効果関数を含む経路積分シミュレーションのテンソルネットワークに基づく新しい分解法を提案する。
影響関数によって導入された有限の一時的な非局所相互作用は、行列積状態表現を用いて非常に効率的に捉えることができる。
AP-TNPIフレームワークの柔軟性により、非平衡量子力学のための経路積分法ファミリーに新たな期待が持てる。
論文 参考訳(メタデータ) (2021-06-23T16:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。