論文の概要: Outlier-Efficient Hopfield Layers for Large Transformer-Based Models
- arxiv url: http://arxiv.org/abs/2404.03828v1
- Date: Thu, 4 Apr 2024 23:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 17:25:49.791096
- Title: Outlier-Efficient Hopfield Layers for Large Transformer-Based Models
- Title(参考訳): 大規模変圧器モデルのための高効率ホップフィールド層
- Authors: Jerry Yao-Chieh Hu, Pei-Hsuan Chang, Robin Luo, Hong-Yu Chen, Weijian Li, Wei-Po Wang, Han Liu,
- Abstract要約: Outlier-Effient Modern Hopfield Model (termed $mathttOutEffHop$)を導入する。
我々の主な貢献は、テクティトゥーラ効率の良い連想記憶検索を容易にする新しい連想記憶モデルである。
本稿では,大規模トランスモデルとホップフィールドモデルにまたがって提案モデルの有効性を示す。
- 参考スコア(独自算出の注目度): 10.972020273638066
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce an Outlier-Efficient Modern Hopfield Model (termed $\mathtt{OutEffHop}$) and use it to address the outlier-induced challenge of quantizing gigantic transformer-based models. Our main contribution is a novel associative memory model facilitating \textit{outlier-efficient} associative memory retrievals. Interestingly, this memory model manifests a model-based interpretation of an outlier-efficient attention mechanism ($\text{Softmax}_1$): it is an approximation of the memory retrieval process of $\mathtt{OutEffHop}$. Methodologically, this allows us to debut novel outlier-efficient Hopfield layers a powerful attention alternative with superior post-quantization performance. Theoretically, the Outlier-Efficient Modern Hopfield Model retains and improves the desirable properties of the standard modern Hopfield models, including fixed point convergence and exponential storage capacity. Empirically, we demonstrate the proposed model's efficacy across large-scale transformer-based and Hopfield-based models (including BERT, OPT, ViT and STanHop-Net), benchmarking against state-of-the-art methods including $\mathtt{Clipped\_Softmax}$ and $\mathtt{Gated\_Attention}$. Notably, $\mathtt{OutEffHop}$ achieves on average $\sim$22+\% reductions in both average kurtosis and maximum infinity norm of model outputs accross 4 models.
- Abstract(参考訳): ここでは,大域変圧器モデルに基づく量子化における外周誘起問題に対処するために,外周効率のよい現代ホップフィールドモデル($\mathtt{OutEffHop}$)を導入する。
我々の主な貢献は、連想記憶の検索を容易にする新しい連想記憶モデルである。
興味深いことに、このメモリモデルは、アウトリア効率の注意機構($\text{Softmax}_1$):$\mathtt{OutEffHop}$のメモリ検索プロセスの近似である。
提案手法により,新奇な外周効率を持つホップフィールド層を,量子化後の性能に優れる強力なアテンションとしてデビューさせることができる。
理論的には、Outlier-Efficient Modern Hopfield Modelは、固定点収束と指数記憶容量を含む標準的な近代ホップフィールドモデルの望ましい特性を維持し、改善する。
実験により,提案モデルの有効性は, BERT, OPT, ViT, STanHop-Netを含む大規模トランスフォーマーベースおよびホップフィールドベースモデルを対象に, $\mathtt{Clipped\_Softmax}$および$\mathtt{Gated\_Attention}$を含む最先端手法に対するベンチマークを行った。
特に、$\mathtt{OutEffHop}$は平均的なカルトーシスとモデル出力の最大無限ノルムにおいて平均$\sim$22+\%の還元で達成される。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [70.9098740785845]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Nonparametric Modern Hopfield Models [12.160725212848137]
深層学習互換ホップフィールドモデルに対する非パラメトリック構成を提案する。
キーコントリビューションは、現代のホップフィールドモデルにおけるメモリストレージと検索プロセスの解釈に起因している。
サブクワッドラティックな複雑性を持つテクスチャパース構造を持つ現代ホップフィールドモデルを提案する。
論文 参考訳(メタデータ) (2024-04-05T05:46:20Z) - Uniform Memory Retrieval with Larger Capacity for Modern Hopfield Models [5.929540708452128]
本稿では,現代のホップフィールドモデルに対する2段階のメモリ検索ダイナミクスを提案する。
私たちの重要な貢献は、ホップフィールドエネルギー関数をカーネル空間に変換する学習可能な特徴写像$Phi$である。
実世界のデータセットでは、$mathttUtext-Hop$が既存のHopfieldモデルよりも優れています。
論文 参考訳(メタデータ) (2024-04-04T23:05:30Z) - On Computational Limits of Modern Hopfield Models: A Fine-Grained Complexity Analysis [12.72277128564391]
現代のホップフィールドモデルにおけるメモリ検索力学の計算限界について検討する。
我々の重要な貢献は、全ての近代ホプフィールドモデルの効率における相転移の挙動を特徴づけることである。
論文 参考訳(メタデータ) (2024-02-07T01:58:21Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - On Sparse Modern Hopfield Model [12.288884253562845]
現代のホップフィールドモデルのスパース拡張として、スパース近代ホップフィールドモデルを導入する。
スパースなホップフィールドモデルが、その密度の強い理論的性質を保っていることを示す。
論文 参考訳(メタデータ) (2023-09-22T07:32:45Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Storage and Learning phase transitions in the Random-Features Hopfield
Model [9.489398590336643]
ホップフィールドモデル(Hopfield model)は、統計物理学、神経科学、機械学習のコミュニティで数十年にわたって分析されてきたニューラルネットワークのパラダイムモデルである。
機械学習における多様体仮説に着想を得て、ランダム・フィーチャース・ホップフィールドモデル(Random-Features Hopfield Model)と呼ぶ標準設定の一般化を提案し、検討する。
論文 参考訳(メタデータ) (2023-03-29T17:39:21Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - On the Difference Between the Information Bottleneck and the Deep
Information Bottleneck [81.89141311906552]
本稿では,Deep Variational Information Bottleneckとその導出に必要な仮定について再考する。
後者のマルコフ連鎖のみを満たすべき$I(T;Y)$に対して下界を最適化することで、この制限を回避する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。