Fugu-MT 論文翻訳(概要): Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

論文の概要: Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

arxiv url: http://arxiv.org/abs/2405.08707v1
Date: Tue, 14 May 2024 15:48:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 13:28:19.876696
Title: Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory
Title（参考訳）: スケーリング法則を超えて - 連想記憶によるトランスフォーマーのパフォーマンス理解
Authors: Xueyan Niu, Bo Bai, Lei Deng, Wei Han,
Abstract要約: Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
参考スコア（独自算出の注目度）: 11.3128832831327
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Increasing the size of a Transformer model does not always lead to enhanced performance. This phenomenon cannot be explained by the empirical scaling laws. Furthermore, improved generalization ability occurs as the model memorizes the training samples. We present a theoretical framework that sheds light on the memorization process and performance dynamics of transformer-based language models. We model the behavior of Transformers with associative memories using Hopfield networks, such that each transformer block effectively conducts an approximate nearest-neighbor search. Based on this, we design an energy function analogous to that in the modern continuous Hopfield network which provides an insightful explanation for the attention mechanism. Using the majorization-minimization technique, we construct a global energy function that captures the layered architecture of the Transformer. Under specific conditions, we show that the minimum achievable cross-entropy loss is bounded from below by a constant approximately equal to 1. We substantiate our theoretical results by conducting experiments with GPT-2 on various data sizes, as well as training vanilla Transformers on a dataset of 2M tokens.
Abstract（参考訳）: Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。この現象は経験的スケーリング法則では説明できない。さらに、モデルがトレーニングサンプルを記憶するにつれて一般化能力が向上する。本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。ホップフィールドネットワークを用いた連想記憶を用いた変圧器の挙動をモデル化し,各変圧器ブロックが近似近傍探索を効果的に行うようにした。これに基づいて,現代の連続ホップフィールドネットワークに類似したエネルギー関数を設計し,注意機構の洞察に富んだ説明を提供する。最大化最小化手法を用いてトランスフォーマーの階層構造を捕捉する大域的エネルギー関数を構築する。特定の条件下では、達成可能な最小のクロスエントロピー損失は、下から1とほぼ等しい定数で有界であることを示す。 2Mトークンのデータセット上でバニラ変換器を訓練するだけでなく、さまざまなデータサイズでGPT-2を用いて実験を行うことで理論結果を裏付ける。

関連論文リスト

Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文参考訳（メタデータ） (2025-04-30T03:57:28Z)
Hyperspherical Energy Transformer with Recurrent Depth [32.04194224236952]
トランスフォーマーベースの基礎モデルは、膨大なパラメータと計算資源で前例のない成功を収めた。次世代アーキテクチャを進化させるためには、高い解釈可能性と実用的な能力を持つモデルが必要である。本報告では,バニラ変圧器のリカレント深さの代替として,textitHyper-Spherical Energy Transformer (Hyper-SET)を提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:11Z)
Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference [0.30104001512119216]
高速でエネルギー効率のよい推論モデルの構築は、様々なトランスフォーマーベースのアプリケーションを実現するために不可欠である。拡張有限差分法によりLUTネットワークを直接学習する手法を構築した。これにより、トランスベースのモデルに対する計算的でエネルギー効率の良い推論ソリューションが実現される。
論文参考訳（メタデータ） (2024-11-04T05:38:56Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。動作方法や期待されるダイナミクスについてはほとんど分かっていない。非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文参考訳（メタデータ） (2024-06-11T13:29:34Z)
Learning with SASQuaTCh: a Novel Variational Quantum Transformer Architecture with Kernel-Based Self-Attention [0.464982780843177]
本稿では、SASQuaT(Self-Attention Sequential Quantum Transformer Channel)という変分量子回路アーキテクチャを提案する。提案手法は、単純なゲート演算と多次元量子フーリエ変換を用いたビジョントランスフォーマーネットワークの予測におけるカーネルベース演算子学習の最近の知見を活用する。提案手法の有効性を検証するため,9量子ビットと少数のパラメータしか持たず,手書き桁のグレースケール画像を高い精度で同時に埋め込み,分類することが可能な画像分類タスクをシミュレーションおよびハードウェアで検討した。
論文参考訳（メタデータ） (2024-03-21T18:00:04Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
Are Transformers with One Layer Self-Attention Using Low-Rank Weight Matrices Universal Approximators? [37.820617032391404]
低ランクの重み付き自己注意層が入力シーケンス全体のコンテキストを完全にキャプチャする能力を持っていることを示す。単層および単頭トランスフォーマーは、有限サンプルに対する記憶能力を持ち、2つのフィードフォワードニューラルネットワークを持つ1つの自己アテンション層からなるトランスフォーマーは、コンパクトドメイン上の連続置換同変関数の普遍近似器である。
論文参考訳（メタデータ） (2023-07-26T08:07:37Z)
Energy Transformer [64.22957136952725]
我々の研究は、機械学習における有望な3つのパラダイム、すなわち注意機構、エネルギーベースモデル、連想記憶の側面を組み合わせる。本稿では,エネルギー変換器(ET,Energy Transformer)と呼ばれる新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-02-14T18:51:22Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。 RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文参考訳（メタデータ） (2022-05-26T14:51:30Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)
Learning Bounded Context-Free-Grammar via LSTM and the Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文参考訳（メタデータ） (2021-12-16T19:56:44Z)
PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文参考訳（メタデータ） (2021-09-15T01:10:30Z)
A tensor network representation of path integrals: Implementation and analysis [0.0]
ファインマン・ヴァーノン効果関数を含む経路積分シミュレーションのテンソルネットワークに基づく新しい分解法を提案する。影響関数によって導入された有限の一時的な非局所相互作用は、行列積状態表現を用いて非常に効率的に捉えることができる。 AP-TNPIフレームワークの柔軟性により、非平衡量子力学のための経路積分法ファミリーに新たな期待が持てる。
論文参考訳（メタデータ） (2021-06-23T16:41:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。