Fugu-MT 論文翻訳(概要): Outlier-Efficient Hopfield Layers for Large Transformer-Based Models

論文の概要: Outlier-Efficient Hopfield Layers for Large Transformer-Based Models

arxiv url: http://arxiv.org/abs/2404.03828v1
Date: Thu, 4 Apr 2024 23:08:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 17:25:49.791096
Title: Outlier-Efficient Hopfield Layers for Large Transformer-Based Models
Title（参考訳）: 大規模変圧器モデルのための高効率ホップフィールド層
Authors: Jerry Yao-Chieh Hu, Pei-Hsuan Chang, Robin Luo, Hong-Yu Chen, Weijian Li, Wei-Po Wang, Han Liu,
Abstract要約: Outlier-Effient Modern Hopfield Model (termed $mathttOutEffHop$)を導入する。我々の主な貢献は、テクティトゥーラ効率の良い連想記憶検索を容易にする新しい連想記憶モデルである。本稿では,大規模トランスモデルとホップフィールドモデルにまたがって提案モデルの有効性を示す。
参考スコア（独自算出の注目度）: 10.972020273638066
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce an Outlier-Efficient Modern Hopfield Model (termed $\mathtt{OutEffHop}$) and use it to address the outlier-induced challenge of quantizing gigantic transformer-based models. Our main contribution is a novel associative memory model facilitating \textit{outlier-efficient} associative memory retrievals. Interestingly, this memory model manifests a model-based interpretation of an outlier-efficient attention mechanism ($\text{Softmax}_1$): it is an approximation of the memory retrieval process of $\mathtt{OutEffHop}$. Methodologically, this allows us to debut novel outlier-efficient Hopfield layers a powerful attention alternative with superior post-quantization performance. Theoretically, the Outlier-Efficient Modern Hopfield Model retains and improves the desirable properties of the standard modern Hopfield models, including fixed point convergence and exponential storage capacity. Empirically, we demonstrate the proposed model's efficacy across large-scale transformer-based and Hopfield-based models (including BERT, OPT, ViT and STanHop-Net), benchmarking against state-of-the-art methods including $\mathtt{Clipped\_Softmax}$ and $\mathtt{Gated\_Attention}$. Notably, $\mathtt{OutEffHop}$ achieves on average $\sim$22+\% reductions in both average kurtosis and maximum infinity norm of model outputs accross 4 models.
Abstract（参考訳）: ここでは,大域変圧器モデルに基づく量子化における外周誘起問題に対処するために,外周効率のよい現代ホップフィールドモデル($\mathtt{OutEffHop}$)を導入する。我々の主な貢献は、連想記憶の検索を容易にする新しい連想記憶モデルである。興味深いことに、このメモリモデルは、アウトリア効率の注意機構($\text{Softmax}_1$):$\mathtt{OutEffHop}$のメモリ検索プロセスの近似である。提案手法により,新奇な外周効率を持つホップフィールド層を,量子化後の性能に優れる強力なアテンションとしてデビューさせることができる。理論的には、Outlier-Efficient Modern Hopfield Modelは、固定点収束と指数記憶容量を含む標準的な近代ホップフィールドモデルの望ましい特性を維持し、改善する。実験により,提案モデルの有効性は, BERT, OPT, ViT, STanHop-Netを含む大規模トランスフォーマーベースおよびホップフィールドベースモデルを対象に, $\mathtt{Clipped\_Softmax}$および$\mathtt{Gated\_Attention}$を含む最先端手法に対するベンチマークを行った。特に、$\mathtt{OutEffHop}$は平均的なカルトーシスとモデル出力の最大無限ノルムにおいて平均$\sim$22+\%の還元で達成される。

関連論文リスト

Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
FuXi-$α$: Scaling Recommendation Model with Feature Interaction Enhanced Transformer [81.12174905444229]
近年の進歩は、大規模レコメンデーションモデルに逐次レコメンデーションモデルを拡張することが効果的な戦略であることを示している。これらの問題に対処するために、FuXi-$alpha$と呼ばれる新しいモデルを提案する。我々のモデルは既存のモデルよりも優れており、モデルのサイズが大きくなるにつれてその性能は継続的に向上する。
論文参考訳（メタデータ） (2025-02-05T09:46:54Z)
TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文参考訳（メタデータ） (2024-10-30T16:19:00Z)
Nonparametric Modern Hopfield Models [12.160725212848137]
深層学習互換ホップフィールドモデルに対する非パラメトリック構成を提案する。キーコントリビューションは、現代のホップフィールドモデルにおけるメモリストレージと検索プロセスの解釈に起因している。サブクワッドラティックな複雑性を持つテクスチャパース構造を持つ現代ホップフィールドモデルを提案する。
論文参考訳（メタデータ） (2024-04-05T05:46:20Z)
Uniform Memory Retrieval with Larger Capacity for Modern Hopfield Models [5.929540708452128]
本稿では,現代のホップフィールドモデルに対する2段階のメモリ検索ダイナミクスを提案する。主な貢献は学習可能な特徴写像 $Phi$ であり、ホップフィールドエネルギー関数をカーネル空間に変換する。記憶されたメモリパターンを学習データとして利用し、現代のホップフィールドモデル全体のメモリ容量を向上させる。
論文参考訳（メタデータ） (2024-04-04T23:05:30Z)
Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文参考訳（メタデータ） (2024-03-13T20:16:21Z)
On Computational Limits of Modern Hopfield Models: A Fine-Grained Complexity Analysis [12.72277128564391]
現代のホップフィールドモデルにおけるメモリ検索力学の計算限界について検討する。入力クエリパターンとメモリパターンのノルムに対する上限基準を確立する。メモリ検索誤差と指数的メモリ容量を有界に証明する。
論文参考訳（メタデータ） (2024-02-07T01:58:21Z)
Precision-Recall Divergence Optimization for Generative Modeling with GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-05-30T10:07:17Z)
Storage and Learning phase transitions in the Random-Features Hopfield Model [9.489398590336643]
ホップフィールドモデル(Hopfield model)は、統計物理学、神経科学、機械学習のコミュニティで数十年にわたって分析されてきたニューラルネットワークのパラダイムモデルである。機械学習における多様体仮説に着想を得て、ランダム・フィーチャース・ホップフィールドモデル(Random-Features Hopfield Model)と呼ぶ標準設定の一般化を提案し、検討する。
論文参考訳（メタデータ） (2023-03-29T17:39:21Z)
Heterogenous Ensemble of Models for Molecular Property Prediction [55.91865861896012]
分子の異なるモーダル性を考える手法を提案する。これらのモデルをHuberRegressorでアンサンブルします。これにより、OGB Large-Scale Challenge (2022)の2textsuperscriptndエディションの勝利のソリューションが得られる。
論文参考訳（メタデータ） (2022-11-20T17:25:26Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)
Neural Pseudo-Label Optimism for the Bank Loan Problem [78.66533961716728]
本研究では,Emphbank 融資問題に最もよく表される分類問題について検討する。線形モデルの場合、この問題はモデル予測に直接最適化を加えることで解決できる。 Pseudo-Label Optimism (PLOT)は,この設定をディープニューラルネットワークに適用するための概念的かつ計算学的にシンプルな手法である。
論文参考訳（メタデータ） (2021-12-03T22:46:31Z)
Model-Based Reinforcement Learning with Value-Targeted Regression [48.92439657407732]
我々は、遷移モデル $P$ が既知のモデルの族 $mathcalP$ に属する有限水平エピソード RL に焦点を当てる。線形混合の特別な場合において、後悔束は $tildemathcalO(dsqrtH3T)$ という形を取る。
論文参考訳（メタデータ） (2020-06-01T17:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。