論文の概要: iMixer: hierarchical Hopfield network implies an invertible, implicit and iterative MLP-Mixer
- arxiv url: http://arxiv.org/abs/2304.13061v2
- Date: Mon, 1 Apr 2024 06:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:51:35.882483
- Title: iMixer: hierarchical Hopfield network implies an invertible, implicit and iterative MLP-Mixer
- Title(参考訳): iMixer:階層型のHopfieldネットワークは、可逆的で暗黙的で反復的なMLP-Mixerを意味する
- Authors: Toshihiro Ota, Masato Taki,
- Abstract要約: ホップフィールドネットワークとトランスフォーマーのようなアーキテクチャの研究をiMixerに一般化する。
iMixerは、出力側から入力側へ前進する一般化である。
画像分類タスクにおいて,様々なデータセットを用いてモデル性能を評価する。
この結果は、ホップフィールドネットワークとミキサーモデルとの対応が、トランスフォーマーのようなアーキテクチャ設計のより広範なクラスを理解するための原則であることを示している。
- 参考スコア(独自算出の注目度): 2.5782420501870296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the last few years, the success of Transformers in computer vision has stimulated the discovery of many alternative models that compete with Transformers, such as the MLP-Mixer. Despite their weak inductive bias, these models have achieved performance comparable to well-studied convolutional neural networks. Recent studies on modern Hopfield networks suggest the correspondence between certain energy-based associative memory models and Transformers or MLP-Mixer, and shed some light on the theoretical background of the Transformer-type architectures design. In this paper, we generalize the correspondence to the recently introduced hierarchical Hopfield network, and find iMixer, a novel generalization of MLP-Mixer model. Unlike ordinary feedforward neural networks, iMixer involves MLP layers that propagate forward from the output side to the input side. We characterize the module as an example of invertible, implicit, and iterative mixing module. We evaluate the model performance with various datasets on image classification tasks, and find that iMixer, despite its unique architecture, exhibits stable learning capabilities and achieves performance comparable to or better than the baseline vanilla MLP-Mixer. The results imply that the correspondence between the Hopfield networks and the Mixer models serves as a principle for understanding a broader class of Transformer-like architecture designs.
- Abstract(参考訳): ここ数年、コンピュータビジョンにおけるトランスフォーマーの成功は、MLP-Mixerのようなトランスフォーマーと競合する多くの代替モデルの発見を刺激してきた。
誘導バイアスが弱いにもかかわらず、これらのモデルはよく研究された畳み込みニューラルネットワークに匹敵する性能を達成した。
最近のホップフィールドネットワークの研究は、あるエネルギーベースの連想メモリモデルとトランスフォーマーまたはMLP-ミクサーの対応を示唆しており、トランスフォーマー型アーキテクチャの設計の理論的背景に光を当てている。
本稿では,最近導入された階層型ホップフィールドネットワークへの対応を一般化し,新しいMLP-Mixerモデルの一般化であるiMixerを求める。
通常のフィードフォワードニューラルネットワークとは異なり、iMixerは出力側から入力側へ前進するMLP層を含んでいる。
我々は、モジュールを可逆的で暗黙的で反復的な混合モジュールの例として特徴づける。
画像分類タスクの様々なデータセットを用いてモデル性能を評価し,iMixerのユニークなアーキテクチャにもかかわらず,安定した学習能力を示し,ベースラインのバニラMLP-Mixerに匹敵する性能を実現する。
この結果は、ホップフィールドネットワークとミキサーモデルとの対応が、トランスフォーマーのようなアーキテクチャ設計のより広範なクラスを理解するための原則であることを示している。
関連論文リスト
- The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking [6.9366619419210656]
トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとして、自らを確立している。
最近の研究は、MetaFormersで説明されているようなアテンションモジュールを他のメカニズムに置き換えることを検討している。
本稿では,Krotovの階層型連想メモリとMetaFormersを統合し,Transformerブロックの包括的表現を可能にする。
論文 参考訳(メタデータ) (2024-06-18T02:42:19Z) - Mixer is more than just a model [23.309064032922507]
本研究は、ロールタイムとハーミットFFT(ASM-RH)を用いたオーディオスペクトログラムミキサーという新しいモデルを導入することで、音声認識の領域に焦点を当てる。
実験により、ASM-RHは音声データに特に適しており、複数の分類タスクで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-02-28T02:45:58Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series
Forecasting [13.410217680999459]
トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。
高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。
マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
論文 参考訳(メタデータ) (2023-06-14T06:26:23Z) - HyperMixer: An MLP-based Low Cost Alternative to Transformers [12.785548869229052]
本稿では,ハイパーネットを用いたトークン混合を動的に生成する,シンプルな変種HyperMixerを提案する。
Transformersとは対照的に、HyperMixerは処理時間、トレーニングデータ、ハイパーチューニングといった面で、これらの結果を大幅に低コストで達成します。
論文 参考訳(メタデータ) (2022-03-07T20:23:46Z) - PointMixer: MLP-Mixer for Point Cloud Understanding [74.694733918351]
チャネルミキシングとトークンミキシングの概念は、視覚認識タスクにおいて顕著なパフォーマンスを達成する。
画像とは異なり、点雲は本質的にスパースで、秩序がなく、不規則であり、点雲の理解にユニバーサルミクサーを直接使用することを制限する。
本稿では,非構造化3次元点間の情報共有を容易にする共通点集合演算子であるPointMixerを提案する。
論文 参考訳(メタデータ) (2021-11-22T13:25:54Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。