論文の概要: Lateralization MLP: A Simple Brain-inspired Architecture for Diffusion
- arxiv url: http://arxiv.org/abs/2405.16098v1
- Date: Sat, 25 May 2024 07:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:00:23.624226
- Title: Lateralization MLP: A Simple Brain-inspired Architecture for Diffusion
- Title(参考訳): Lateralization MLP: 拡散のためのシンプルな脳インスパイアされたアーキテクチャ
- Authors: Zizhao Hu, Mohammad Rostami,
- Abstract要約: 並列化(L-MLP)と呼ばれる,単純だが効果的なアーキテクチャを提案する。
人間の脳の側方化に触発されて、我々は、L-MLPと呼ばれる新しい単純で効果的なアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 20.437172251393257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture has dominated machine learning in a wide range of tasks. The specific characteristic of this architecture is an expensive scaled dot-product attention mechanism that models the inter-token interactions, which is known to be the reason behind its success. However, such a mechanism does not have a direct parallel to the human brain which brings the question if the scaled-dot product is necessary for intelligence with strong expressive power. Inspired by the lateralization of the human brain, we propose a new simple but effective architecture called the Lateralization MLP (L-MLP). Stacking L-MLP blocks can generate complex architectures. Each L-MLP block is based on a multi-layer perceptron (MLP) that permutes data dimensions, processes each dimension in parallel, merges them, and finally passes through a joint MLP. We discover that this specific design outperforms other MLP variants and performs comparably to a transformer-based architecture in the challenging diffusion task while being highly efficient. We conduct experiments using text-to-image generation tasks to demonstrate the effectiveness and efficiency of L-MLP. Further, we look into the model behavior and discover a connection to the function of the human brain. Our code is publicly available: \url{https://github.com/zizhao-hu/L-MLP}
- Abstract(参考訳): Transformerアーキテクチャは、幅広いタスクで機械学習を支配してきた。
このアーキテクチャの特異な特徴は、その成功の背景にあるものとして知られており、トークン間の相互作用をモデル化する高価なスケールのドット製品アテンションメカニズムである。
しかし、そのようなメカニズムは人間の脳と直接に平行するものではないため、強力な表現力を持つ知能にスケールドドットの製品が必要なのかという疑問が持ち上がる。
人間の脳の側方化に触発されて、我々は、L-MLP ( Lateralization MLP) と呼ばれる、単純で効果的なアーキテクチャを提案する。
L-MLPブロックを積み重ねると複雑なアーキテクチャが生成される。
各L-MLPブロックは多層パーセプトロン(MLP)に基づいており、データ次元を置換し、各次元を並列に処理し、それらをマージし、最終的に関節MLPを通過する。
この特異な設計は、他のMLPのバリエーションよりも優れており、高い効率を保ちながら、挑戦的な拡散課題においてトランスフォーマーベースのアーキテクチャと同等に機能することを発見した。
L-MLPの有効性と有効性を示すために,テキスト・画像生成タスクを用いて実験を行った。
さらに、モデル行動を調べ、人間の脳の機能に関連性を見出す。
私たちのコードは公開されています。 \url{https://github.com/zizhao-hu/L-MLP}
関連論文リスト
- X-MLP: A Patch Embedding-Free MLP Architecture for Vision [4.493200639605705]
視覚のための多層パーセプトロン (MLP) アーキテクチャが再び人気となった。
X-MLPは、完全に接続された層上に完全に構築され、パッチの埋め込みが不要なアーキテクチャである。
X-MLPは10のベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2023-07-02T15:20:25Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition [33.53114929452528]
多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-20T21:13:02Z) - GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation [68.65764751482774]
GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
論文 参考訳(メタデータ) (2022-06-13T18:59:31Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - MDMLP: Image Classification from Scratch on Small Datasets with MLP [7.672827879118106]
近年,アテンション機構は自然言語処理やコンピュータビジョンタスクのゴーツーテクニックとなっている。
近年,マルチ層パーセプトロン(MLP)をベースとしたMixerなどのアーキテクチャも,CNNやアテンション技術と比較して強力である。
論文 参考訳(メタデータ) (2022-05-28T16:26:59Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。