論文の概要: Outlier-Efficient Hopfield Layers for Large Transformer-Based Models
- arxiv url: http://arxiv.org/abs/2404.03828v2
- Date: Wed, 26 Jun 2024 20:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 19:16:49.545923
- Title: Outlier-Efficient Hopfield Layers for Large Transformer-Based Models
- Title(参考訳): 大規模変圧器モデルのための高効率ホップフィールド層
- Authors: Jerry Yao-Chieh Hu, Pei-Hsuan Chang, Robin Luo, Hong-Yu Chen, Weijian Li, Wei-Po Wang, Han Liu,
- Abstract要約: Outlier-Effient Modern Hopfield Model (termed $mathrmOutEffHop$)を導入する。
我々の主な貢献は、テクティトゥーラ効率の良い連想記憶検索を容易にする新しい連想記憶モデルである。
$mathrmOutEffHop$は平均カルトシスで平均22%、モデル出力の最大無限ノルムで26%の減少を達成する。
- 参考スコア(独自算出の注目度): 10.972020273638066
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce an Outlier-Efficient Modern Hopfield Model (termed $\mathrm{OutEffHop}$) and use it to address the outlier inefficiency problem of {training} gigantic transformer-based models. Our main contribution is a novel associative memory model facilitating \textit{outlier-efficient} associative memory retrievals. Interestingly, this memory model manifests a model-based interpretation of an outlier-efficient attention mechanism (${\rm Softmax}_1$): it is an approximation of the memory retrieval process of $\mathrm{OutEffHop}$. Methodologically, this allows us to introduce novel outlier-efficient Hopfield layers as powerful alternatives to traditional attention mechanisms, with superior post-quantization performance. Theoretically, the Outlier-Efficient Modern Hopfield Model retains and improves the desirable properties of standard modern Hopfield models, including fixed point convergence and exponential storage capacity. Empirically, we demonstrate the efficacy of the proposed model across large-scale transformer-based and Hopfield-based models (including BERT, OPT, ViT, and STanHop-Net), benchmarking against state-of-the-art methods like $\mathtt{Clipped\_Softmax}$ and $\mathtt{Gated\_Attention}$. Notably, $\mathrm{OutEffHop}$ achieves an average reduction of 22+\% in average kurtosis and 26+\% in the maximum infinity norm of model outputs across four models. Code is available at \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub}; models are on \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub}; future updates are on \href{https://arxiv.org/abs/2404.03828}{arXiv}.
- Abstract(参考訳): 本稿では,大域変圧器モデルにおける外周非効率問題に対処するために,高効率なモダンホップフィールドモデル($\mathrm{OutEffHop}$)を導入する。
我々の主な貢献は、連想記憶の検索を容易にする新しい連想記憶モデルである。
興味深いことに、このメモリモデルは、外周効率の注意機構のモデルに基づく解釈({\rm Softmax}_1$):$\mathrm{OutEffHop}$のメモリ検索プロセスの近似である。
提案手法により,従来のアテンション機構の強力な代替手段として,新しい外周効率のホップフィールド層を導入し,ポスト量子化性能が向上する。
理論的には、Outlier-Efficient Modern Hopfield Modelは、固定点収束や指数記憶容量を含む標準的な近代ホップフィールドモデルの望ましい特性を維持し、改善する。
実験により,提案モデルは,BERT, OPT, ViT, STanHop-Netを含む大規模トランスフォーマーベースモデルおよびホップフィールドベースモデルに対して有効であり,$\mathtt{Clipped\_Softmax}$や$\mathtt{Gated\_Attention}$といった最先端手法に対するベンチマークを行う。
特に、$\mathrm{OutEffHop}$は平均カルトシスにおいて平均22+\%、モデル出力における最大無限度ノルムにおいて26+\%の減少を達成する。
コードは \href{https://github.com/MAGICS-LAB/OutEffHop}{GitHub}; モデルは \href{https://huggingface.co/collections/magicslabnu/outeffhop-6610fcede8d2cda23009a98f}{Hugging Face Hub}; 将来のアップデートは \href{https://arxiv.org/abs/2404.03828}{arXiv} にある。
関連論文リスト
- TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文 参考訳(メタデータ) (2024-10-30T16:19:00Z) - Nonparametric Modern Hopfield Models [12.160725212848137]
深層学習互換ホップフィールドモデルに対する非パラメトリック構成を提案する。
キーコントリビューションは、現代のホップフィールドモデルにおけるメモリストレージと検索プロセスの解釈に起因している。
サブクワッドラティックな複雑性を持つテクスチャパース構造を持つ現代ホップフィールドモデルを提案する。
論文 参考訳(メタデータ) (2024-04-05T05:46:20Z) - Uniform Memory Retrieval with Larger Capacity for Modern Hopfield Models [5.929540708452128]
本稿では,現代のホップフィールドモデルに対する2段階のメモリ検索ダイナミクスを提案する。
主な貢献は学習可能な特徴写像 $Phi$ であり、ホップフィールドエネルギー関数をカーネル空間に変換する。
記憶されたメモリパターンを学習データとして利用し、現代のホップフィールドモデル全体のメモリ容量を向上させる。
論文 参考訳(メタデータ) (2024-04-04T23:05:30Z) - Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。
我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文 参考訳(メタデータ) (2024-03-13T20:16:21Z) - On Computational Limits of Modern Hopfield Models: A Fine-Grained Complexity Analysis [12.72277128564391]
現代のホップフィールドモデルにおけるメモリ検索力学の計算限界について検討する。
入力クエリパターンとメモリパターンのノルムに対する上限基準を確立する。
メモリ検索誤差と指数的メモリ容量を有界に証明する。
論文 参考訳(メタデータ) (2024-02-07T01:58:21Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Storage and Learning phase transitions in the Random-Features Hopfield
Model [9.489398590336643]
ホップフィールドモデル(Hopfield model)は、統計物理学、神経科学、機械学習のコミュニティで数十年にわたって分析されてきたニューラルネットワークのパラダイムモデルである。
機械学習における多様体仮説に着想を得て、ランダム・フィーチャース・ホップフィールドモデル(Random-Features Hopfield Model)と呼ぶ標準設定の一般化を提案し、検討する。
論文 参考訳(メタデータ) (2023-03-29T17:39:21Z) - Heterogenous Ensemble of Models for Molecular Property Prediction [55.91865861896012]
分子の異なるモーダル性を考える手法を提案する。
これらのモデルをHuberRegressorでアンサンブルします。
これにより、OGB Large-Scale Challenge (2022)の2textsuperscriptndエディションの勝利のソリューションが得られる。
論文 参考訳(メタデータ) (2022-11-20T17:25:26Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Neural Pseudo-Label Optimism for the Bank Loan Problem [78.66533961716728]
本研究では,Emphbank 融資問題に最もよく表される分類問題について検討する。
線形モデルの場合、この問題はモデル予測に直接最適化を加えることで解決できる。
Pseudo-Label Optimism (PLOT)は,この設定をディープニューラルネットワークに適用するための概念的かつ計算学的にシンプルな手法である。
論文 参考訳(メタデータ) (2021-12-03T22:46:31Z) - Model-Based Reinforcement Learning with Value-Targeted Regression [48.92439657407732]
我々は、遷移モデル $P$ が既知のモデルの族 $mathcalP$ に属する有限水平エピソード RL に焦点を当てる。
線形混合の特別な場合において、後悔束は $tildemathcalO(dsqrtH3T)$ という形を取る。
論文 参考訳(メタデータ) (2020-06-01T17:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。