Fugu-MT 論文翻訳(概要): Provably Optimal Memory Capacity for Modern Hopfield Models: Transformer-Compatible Dense Associative Memories as Spherical Codes

論文の概要: Provably Optimal Memory Capacity for Modern Hopfield Models: Transformer-Compatible Dense Associative Memories as Spherical Codes

arxiv url: http://arxiv.org/abs/2410.23126v2
Date: Thu, 31 Oct 2024 16:02:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.39474
Title: Provably Optimal Memory Capacity for Modern Hopfield Models: Transformer-Compatible Dense Associative Memories as Spherical Codes
Title（参考訳）: 現代ホップフィールドモデルにおけるおそらく最適記憶容量:球面符号としての変圧器対応高密度連想記憶
Authors: Jerry Yao-Chieh Hu, Dennis Wu, Han Liu,
Abstract要約: 現代ホップフィールドモデルとカーネル化ホップフィールドモデル(KHMs)の最適キャパシティ記憶について検討する。 KHMsの最適容量は、特徴空間がメモリに最適な球形コードを形成することを許すときに生じることを示す。
参考スコア（独自算出の注目度）: 6.477597248683852
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We study the optimal memorization capacity of modern Hopfield models and Kernelized Hopfield Models (KHMs), a transformer-compatible class of Dense Associative Memories. We present a tight analysis by establishing a connection between the memory configuration of KHMs and spherical codes from information theory. Specifically, we treat the stored memory set as a specialized spherical code. This enables us to cast the memorization problem in KHMs into a point arrangement problem on a hypersphere. We show that the optimal capacity of KHMs occurs when the feature space allows memories to form an optimal spherical code. This unique perspective leads to: (i) An analysis of how KHMs achieve optimal memory capacity, and identify corresponding necessary conditions. Importantly, we establish an upper capacity bound that matches the well-known exponential lower bound in the literature. This provides the first tight and optimal asymptotic memory capacity for modern Hopfield models. (ii) A sub-linear time algorithm $\mathtt{U}\text{-}\mathtt{Hop}$+ to reach KHMs' optimal capacity. (iii) An analysis of the scaling behavior of the required feature dimension relative to the number of stored memories. These efforts improve both the retrieval capability of KHMs and the representation learning of corresponding transformers. Experimentally, we provide thorough numerical results to back up theoretical findings.
Abstract（参考訳）: 本稿では,現代ホプフィールドモデルとKernelized Hopfield Models(KHMs)の最適記憶能力について検討する。情報理論から,KHMのメモリ構成と球面符号との接続を確立することで,厳密な解析を行う。具体的には,記憶メモリセットを特別な球形コードとして扱う。これにより、KHMの記憶問題を超球面上の点配置問題にキャストすることができる。 KHMsの最適容量は、特徴空間がメモリに最適な球形コードを形成することを許すときに生じることを示す。このユニークな視点は次のようになる。 i) KHMが最適なメモリ容量を実現し、必要な条件を特定する方法の分析。重要なことは、文献のよく知られた指数的下界と一致する上限を確立することである。これにより、現代のホップフィールドモデルにおいて、最初のタイトで最適な漸近記憶容量が提供される。 (ii) KHMsの最適容量に到達するためのサブ線形時間アルゴリズム$\mathtt{U}\text{-}\mathtt{Hop}$+。三記憶されている記憶数に対して必要な特徴次元のスケーリング挙動の分析。これらの取り組みは、KHMの検索能力と、対応する変換器の表現学習の両方を改善する。実験により,理論的な知見を裏付けるために,徹底的な数値的な結果が得られた。

関連論文リスト

Latent Structured Hopfield Network for Semantic Association and Retrieval [52.634915010996835]
エピソード記憶は、オブジェクト、場所、時間などの意味的要素をコヒーレントなイベント表現に関連付けることによって、過去の経験を思い出すことができる。本稿では,連続ホップフィールドアトラクタダイナミクスを自動エンコーダアーキテクチャに統合するフレームワークであるLatent Structured Hopfield Network (LSHN)を提案する。従来のホップフィールドネットワークとは異なり、我々のモデルは勾配勾配でエンドツーエンドに訓練され、スケーラブルで堅牢なメモリ検索を実現する。
論文参考訳（メタデータ） (2025-06-02T04:24:36Z)
Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition [93.98343072306619]
本研究では,高次テンソル重み付きニューラルネットワークの効率的なトレーニング手法であるNavier-GaLoreを提案する。様々なPDEタスクの中で、Navier-GaLoreはメモリ節約を実現し、最大75%のメモリ使用量を削減している。
論文参考訳（メタデータ） (2025-01-04T20:51:51Z)
Memory-Efficient 4-bit Preconditioned Stochastic Optimization [53.422307389223626]
シャンプーのプリコンディショナーに4ビット量子化を導入する。我々の知る限り、これはプレコンディショナーのチョレスキー因子に適用された最初の量子化手法である。 Cholesky量子化とエラーフィードバックを組み合わせることで、メモリ効率とアルゴリズム性能が向上することを示した。
論文参考訳（メタデータ） (2024-12-14T03:32:54Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
Efficient Learning for Linear Properties of Bounded-Gate Quantum Circuits [63.733312560668274]
d可変RZゲートとG-dクリフォードゲートを含む量子回路を与えられた場合、学習者は純粋に古典的な推論を行い、その線形特性を効率的に予測できるだろうか? 我々は、d で線形にスケーリングするサンプルの複雑さが、小さな予測誤差を達成するのに十分であり、対応する計算の複雑さは d で指数関数的にスケールすることを証明する。我々は,予測誤差と計算複雑性をトレードオフできるカーネルベースの学習モデルを考案し,多くの実践的な環境で指数関数からスケーリングへ移行した。
論文参考訳（メタデータ） (2024-08-22T08:21:28Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
Nonparametric Modern Hopfield Models [12.160725212848137]
深層学習互換ホップフィールドモデルに対する非パラメトリック構成を提案する。キーコントリビューションは、現代のホップフィールドモデルにおけるメモリストレージと検索プロセスの解釈に起因している。サブクワッドラティックな複雑性を持つテクスチャパース構造を持つ現代ホップフィールドモデルを提案する。
論文参考訳（メタデータ） (2024-04-05T05:46:20Z)
Uniform Memory Retrieval with Larger Capacity for Modern Hopfield Models [5.929540708452128]
本稿では,現代のホップフィールドモデルに対する2段階のメモリ検索ダイナミクスを提案する。主な貢献は学習可能な特徴写像 $Phi$ であり、ホップフィールドエネルギー関数をカーネル空間に変換する。記憶されたメモリパターンを学習データとして利用し、現代のホップフィールドモデル全体のメモリ容量を向上させる。
論文参考訳（メタデータ） (2024-04-04T23:05:30Z)
On Computational Limits of Modern Hopfield Models: A Fine-Grained Complexity Analysis [12.72277128564391]
現代のホップフィールドモデルにおけるメモリ検索力学の計算限界について検討する。入力クエリパターンとメモリパターンのノルムに対する上限基準を確立する。メモリ検索誤差と指数的メモリ容量を有界に証明する。
論文参考訳（メタデータ） (2024-02-07T01:58:21Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
On Sparse Modern Hopfield Model [12.288884253562845]
現代のホップフィールドモデルのスパース拡張として、スパース近代ホップフィールドモデルを導入する。スパースなホップフィールドモデルが、その密度の強い理論的性質を保っていることを示す。
論文参考訳（メタデータ） (2023-09-22T07:32:45Z)
Thermodynamics of bidirectional associative memories [0.0]
双方向連想記憶(BAM)の平衡特性について検討する。コスコは1988年にホップフィールドモデルを二部構造への一般化として導入した。このモデルの拡張の計算能力を熱力学限界で特徴づける。
論文参考訳（メタデータ） (2022-11-17T17:35:37Z)
Bosonic field digitization for quantum computers [62.997667081978825]
我々は、離散化された場振幅ベースで格子ボゾン場の表現に対処する。本稿では,エラースケーリングを予測し,効率的な量子ビット実装戦略を提案する。
論文参考訳（メタデータ） (2021-08-24T15:30:04Z)
Physics-informed CoKriging model of a redox flow battery [68.8204255655161]
レドックスフロー電池(RFB)は、大量のエネルギーを安価かつ効率的に貯蔵する機能を提供する。 RFBの充電曲線の高速かつ正確なモデルが必要であり、バッテリ容量と性能が向上する可能性がある。 RFBの電荷分配曲線を予測する多相モデルを構築した。
論文参考訳（メタデータ） (2021-06-17T00:49:55Z)
Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文参考訳（メタデータ） (2021-04-05T21:44:00Z)
Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文参考訳（メタデータ） (2020-06-08T17:25:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。