論文の概要: On the Role of Hidden States of Modern Hopfield Network in Transformer
- arxiv url: http://arxiv.org/abs/2511.20698v1
- Date: Mon, 24 Nov 2025 10:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.762916
- Title: On the Role of Hidden States of Modern Hopfield Network in Transformer
- Title(参考訳): 変圧器における近代ホップフィールドネットワークの隠れ状態の役割について
- Authors: Tsubasa Masumura, Masato Taki,
- Abstract要約: ホップフィールドネットワークに基づく連想記憶モデルとキー-値機構に基づく自己注意は、ディープラーニングにおける記憶機構の研究において一般的なアプローチである。
本稿では,この近似を超え,MHNと自己注意の関係について検討する。
この結果から, ホップフィールドネットワークとトランスフォーマーの対応性は, MHN から派生した隠れ状態である新しい変数を自己アテンションに付加することにより, より一般化された形で確立できることが示唆された。
- 参考スコア(独自算出の注目度): 5.37133760455631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Associative memory models based on Hopfield networks and self-attention based on key-value mechanisms have been popular approaches in the study of memory mechanisms in deep learning. It has been pointed out that the state update rule of the modern Hopfield network (MHN) in the adiabatic approximation is in agreement with the self-attention layer of Transformer. In this paper, we go beyond this approximation and investigate the relationship between MHN and self-attention. Our results show that the correspondence between Hopfield networks and Transformers can be established in a more generalized form by adding a new variable, the hidden state derived from the MHN, to self-attention. This new attention mechanism, modern Hopfield attention (MHA), allows the inheritance of attention scores from the input layer of the Transformer to the output layer, which greatly improves the nature of attention weights. In particular, we show both theoretically and empirically that MHA hidden states significantly improve serious problem of deep Transformers known as rank collapse and token uniformity. We also confirm that MHA can systematically improve accuracy without adding training parameters to the Vision Transformer or GPT. Our results provide a new case in which Hopfield networks can be a useful perspective for improving the Transformer architecture.
- Abstract(参考訳): ホップフィールドネットワークに基づく連想記憶モデルとキー-値機構に基づく自己注意は、ディープラーニングにおける記憶機構の研究において一般的なアプローチである。
最新のホップフィールドネットワーク(MHN)のアディベート近似における状態更新規則は、Transformerの自己保持層と一致していることが指摘されている。
本稿では,この近似を超え,MHNと自己注意の関係について検討する。
この結果から, ホップフィールドネットワークとトランスフォーマーの対応性は, MHN から派生した隠れ状態である新しい変数を自己アテンションに付加することにより, より一般化された形で確立できることが示唆された。
この新たなアテンション機構である、現代のホップフィールドアテンション(MHA)は、トランスフォーマーの入力層から出力層へのアテンションスコアの継承を可能にし、アテンションウェイトの性質を大幅に改善する。
特に,MHA隠蔽状態が,ランク崩壊やトークン均一性として知られる深層変圧器の深刻な問題を著しく改善することを示す。
また、MHAは視覚変換器やGPTにトレーニングパラメータを追加することなく、体系的に精度を向上できることを確認した。
この結果から, Hopfield ネットワークが Transformer アーキテクチャの改善に有用であることを示す。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer [1.456352735394398]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化プロセスを通じてトランスフォーマー入力に適応し、継承されたマルチスケールの帰納バイアスを保存する。
論文 参考訳(メタデータ) (2025-06-15T22:42:57Z) - Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Convexifying Transformers: Improving optimization and understanding of
transformer networks [56.69983975369641]
本研究では,注目/変圧器ネットワークのトレーニング問題について検討し,新しい凸解析手法を提案する。
まず,自己注意機構の代替として凸を導入し,変圧器ネットワークの正規化学習問題を再構成する。
凸解析の副産物として,トークン間の空間性を促進する暗黙の規則化機構を明らかにする。
論文 参考訳(メタデータ) (2022-11-20T18:17:47Z) - LocalViT: Analyzing Locality in Vision Transformers [101.53997555864822]
本稿では,視覚変換器における局所性メカニズムの影響について検討する。
フィードフォワードネットワークに視覚変換器に局所性を加える。
ImageNet2012分類では、ローカリティ強化トランスフォーマーがベースラインを上回っている。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。