論文の概要: Self-attention as an attractor network: transient memories without backpropagation
- arxiv url: http://arxiv.org/abs/2409.16112v1
- Date: Tue, 24 Sep 2024 14:19:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:36:51.242929
- Title: Self-attention as an attractor network: transient memories without backpropagation
- Title(参考訳): トラクタネットワークとしての自己注意--バックプロパゲーションを伴わない過渡記憶
- Authors: Francesco D'Amico, Matteo Negri,
- Abstract要約: 擬似的類似性に類似した局所エネルギー項の微分として自己アテンション層が得られることを示す。
本稿では,自己注意をアトラクタネットワークとして解釈する新たな枠組みを提案する。
- 参考スコア(独自算出の注目度): 12.773479300174058
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers are one of the most successful architectures of modern neural networks. At their core there is the so-called attention mechanism, which recently interested the physics community as it can be written as the derivative of an energy function in certain cases: while it is possible to write the cross-attention layer as a modern Hopfield network, the same is not possible for the self-attention, which is used in the GPT architectures and other autoregressive models. In this work we show that it is possible to obtain the self-attention layer as the derivative of local energy terms, which resemble a pseudo-likelihood. We leverage the analogy with pseudo-likelihood to design a recurrent model that can be trained without backpropagation: the dynamics shows transient states that are strongly correlated with both train and test examples. Overall we present a novel framework to interpret self-attention as an attractor network, potentially paving the way for new theoretical approaches inspired from physics to understand transformers.
- Abstract(参考訳): トランスフォーマーは、現代のニューラルネットワークの最も成功したアーキテクチャの1つである。
その中核には、近年の物理学界でエネルギー関数の微分として記述できる、いわゆる注意機構があり、現代のホップフィールドネットワークとしてクロスアテンション層を記述することは可能であるが、GPTアーキテクチャやその他の自己回帰モデルで使用される自己アテンションについては、同じことは不可能である。
本研究では, 局所エネルギー項の微分として自己アテンション層が得られることを示す。
我々は擬似様相のアナロジーを利用して、バックプロパゲーションなしでトレーニング可能なリカレントモデルを設計する:力学は、列車と試験の両方の例と強く相関する過渡状態を示す。
全体としては,自己意識をアトラクタネットワークとして解釈する新たな枠組みが提案され,トランスフォーマーを理解するために物理学から着想を得た新たな理論的アプローチの道を開く可能性がある。
関連論文リスト
- Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - A Waddington landscape for prototype learning in generalized Hopfield
networks [0.0]
一般化ホップフィールドネットワークの学習力学について検討する。
細胞が分化するにつれて、運河や低次元のダイナミックスと強い類似性が観察される。
論文 参考訳(メタデータ) (2023-12-04T21:28:14Z) - Inferring Relational Potentials in Interacting Systems [56.498417950856904]
このような相互作用を発見する代替手法として、ニューラル・インタラクション・推論(NIIP)を提案する。
NIIPは観測された関係制約を尊重する軌道のサブセットに低エネルギーを割り当てる。
別々に訓練されたモデル間での相互作用の型を交換するなどの軌道操作や、軌道予測を可能にする。
論文 参考訳(メタデータ) (2023-10-23T00:44:17Z) - The Information Pathways Hypothesis: Transformers are Dynamic
Self-Ensembles [24.52890377175555]
本研究では,学習中の自己注意の記憶と計算コストを4~8倍に削減できる変圧器の汎用的学習戦略を提案する。
本研究では,ネットワーク内のサブサンプリング経路からサブモデルのアンサンブルを生成できることを示す。
論文 参考訳(メタデータ) (2023-06-02T17:28:46Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Energy Transformer [64.22957136952725]
我々の研究は、機械学習における有望な3つのパラダイム、すなわち注意機構、エネルギーベースモデル、連想記憶の側面を組み合わせる。
本稿では,エネルギー変換器(ET,Energy Transformer)と呼ばれる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-14T18:51:22Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。