論文の概要: Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking
- arxiv url: http://arxiv.org/abs/2406.12220v1
- Date: Tue, 18 Jun 2024 02:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 22:58:48.354763
- Title: Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking
- Title(参考訳): 階層型連想記憶,並列化MLPミキサー,シンメトリーブレーカ
- Authors: Ryo Karakida, Toshihiro Ota, Masato Taki,
- Abstract要約: トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとして、自らを確立している。
最近の研究は、MetaFormersで説明されているようなアテンションモジュールを他のメカニズムに置き換えることを検討している。
本稿では,Krotovの階層型連想メモリとMetaFormersを統合し,Transformerブロックの包括的表現を可能にする。
- 参考スコア(独自算出の注目度): 6.9366619419210656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have established themselves as the leading neural network model in natural language processing and are increasingly foundational in various domains. In vision, the MLP-Mixer model has demonstrated competitive performance, suggesting that attention mechanisms might not be indispensable. Inspired by this, recent research has explored replacing attention modules with other mechanisms, including those described by MetaFormers. However, the theoretical framework for these models remains underdeveloped. This paper proposes a novel perspective by integrating Krotov's hierarchical associative memory with MetaFormers, enabling a comprehensive representation of the entire Transformer block, encompassing token-/channel-mixing modules, layer normalization, and skip connections, as a single Hopfield network. This approach yields a parallelized MLP-Mixer derived from a three-layer Hopfield network, which naturally incorporates symmetric token-/channel-mixing modules and layer normalization. Empirical studies reveal that symmetric interaction matrices in the model hinder performance in image recognition tasks. Introducing symmetry-breaking effects transitions the performance of the symmetric parallelized MLP-Mixer to that of the vanilla MLP-Mixer. This indicates that during standard training, weight matrices of the vanilla MLP-Mixer spontaneously acquire a symmetry-breaking configuration, enhancing their effectiveness. These findings offer insights into the intrinsic properties of Transformers and MLP-Mixers and their theoretical underpinnings, providing a robust framework for future model design and optimization.
- Abstract(参考訳): トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとしての地位を確立し、さまざまな領域で基盤を築きつつある。
視覚学において、MLP-Mixerモデルは競争性能を示しており、注意機構は不可欠ではないかもしれないことを示唆している。
これに触発された最近の研究は、MetaFormersによって記述されたものを含む他のメカニズムに注意モジュールを置き換えることを検討している。
しかし、これらのモデルの理論的枠組みは未開発のままである。
本稿では,Krotovの階層型連想メモリをMetaFormersに統合し,トークン/チャネル混在モジュールを含むTransformerブロック全体の包括的表現,レイヤ正規化,スキップ接続を単一ホップフィールドネットワークとして実現する,新しい視点を提案する。
このアプローチは、対称トークン/チャネル混合モジュールと層正規化を自然に組み込んだ3層ホップフィールドネットワークから派生した並列MLPミクサを生成する。
実験的な研究により、モデル内の対称相互作用行列が画像認識タスクのパフォーマンスを妨げていることが明らかになった。
対称性破壊効果の導入は、対称並列化MLPミキサーの性能をバニラMLPミキサーに遷移させる。
これは、標準トレーニング中、バニラMLP-ミキサーの重量行列が自発的に対称性を破る構成を取得し、その効果を高めることを示唆している。
これらの結果はトランスフォーマーとMLP-Mixersの本質的な特性とその理論的基盤に関する洞察を与え、将来のモデル設計と最適化のための堅牢なフレームワークを提供する。
関連論文リスト
- SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series
Forecasting [13.410217680999459]
トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。
高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。
マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
論文 参考訳(メタデータ) (2023-06-14T06:26:23Z) - iMixer: hierarchical Hopfield network implies an invertible, implicit and iterative MLP-Mixer [2.5782420501870296]
ホップフィールドネットワークとトランスフォーマーのようなアーキテクチャの研究をiMixerに一般化する。
iMixerは、出力側から入力側へ前進する一般化である。
画像分類タスクにおいて,様々なデータセットを用いてモデル性能を評価する。
この結果は、ホップフィールドネットワークとミキサーモデルとの対応が、トランスフォーマーのようなアーキテクチャ設計のより広範なクラスを理解するための原則であることを示している。
論文 参考訳(メタデータ) (2023-04-25T18:00:08Z) - Nonlinear Hyperspectral Unmixing based on Multilinear Mixing Model using
Convolutional Autoencoders [6.867229549627128]
リフレクションに基づく教師なしアンミキシングのための新しいオートエンコーダネットワークを提案する。
合成データと実データの両方を用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-03-14T18:11:52Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - ActiveMLP: An MLP-like Architecture with Active Token Mixer [54.95923719553343]
本稿では,コンピュータビジョンのための一般的なバックボーンであるActiveMLPを提案する。
我々は、グローバルな範囲の他のトークンからのコンテキスト情報を与えられたトークンに積極的に組み込む、Active Token Mixer (ATM)と呼ばれる革新的なトークンミキサーを提案する。
このように、トークンミキシングの空間範囲を拡大し、トークンミキシングの方法を変更する。
論文 参考訳(メタデータ) (2022-03-11T17:29:54Z) - DynaMixer: A Vision MLP Architecture with Dynamic Mixing [38.23027495545522]
本稿では,動的情報融合を利用したDynaMixerという,効率的なタスクライクなネットワークアーキテクチャを提案する。
本稿では,DynaMixerモデルを用いて,混合するトークンの内容を動的に生成する手法を提案する。
提案したDynaMixerモデル(97Mパラメータ)は、ImageNet-1K上で84.3%のトップ-1精度を実現し、最先端のビジョンモデルに対して好適に機能する。
論文 参考訳(メタデータ) (2022-01-28T12:43:14Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。