論文の概要: Transformer Vs. MLP-Mixer Exponential Expressive Gap For NLP Problems
- arxiv url: http://arxiv.org/abs/2208.08191v1
- Date: Wed, 17 Aug 2022 09:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:09:35.941041
- Title: Transformer Vs. MLP-Mixer Exponential Expressive Gap For NLP Problems
- Title(参考訳): NLP問題に対する Transformer Vs. MLP-Mixer Exponential Expressive Gap
- Authors: Dan Navon, Alex M. Bronstein
- Abstract要約: 複数入力間の依存関係のモデリングにおけるmlpアーキテクチャの表現力を同時に解析する。
注意とmlpに基づくメカニズムの間には指数的なギャップがある。
以上の結果から,NLP問題においてmlpが注意に基づくメカニズムと競合することができないという理論的理由が示唆された。
- 参考スコア(独自算出の注目度): 8.486025595883117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Transformers are widely used in various vision tasks. Meanwhile, there
is another line of works starting with the MLP-mixer trying to achieve similar
performance using mlp-based architectures. Interestingly, until now none
reported using them for NLP tasks, additionally until now non of those
mlp-based architectures claimed to achieve state-of-the-art in vision tasks. In
this paper, we analyze the expressive power of mlp-based architectures in
modeling dependencies between multiple different inputs simultaneously, and
show an exponential gap between the attention and the mlp-based mechanisms. Our
results suggest a theoretical explanation for the mlp inability to compete with
attention-based mechanisms in NLP problems, they also suggest that the
performance gap in vision tasks may be due to the mlp relative weakness in
modeling dependencies between multiple different locations, and that combining
smart input permutations to the mlp architectures may not suffice alone to
close the performance gap.
- Abstract(参考訳): 視覚変換器は様々な視覚タスクで広く使われている。
一方、MLPミキサーからmlpベースのアーキテクチャを使って同様の性能を達成しようとする作業は、他にもある。
興味深いことに、これまでNLPタスクに使用するという報告はありませんでした。
本稿では,複数の入力間の依存関係を同時にモデル化するmlpベースのアーキテクチャの表現力を分析し,注意とmlpに基づくメカニズムの指数関数的ギャップを示す。
以上の結果から,NLP問題において,mlpが注意に基づくメカニズムと競合することができないという理論的な説明が得られた。また,視覚タスクのパフォーマンスギャップは,複数の異なる場所間の依存性のモデル化において,mlpの相対的弱さに起因する可能性も示唆された。
関連論文リスト
- EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - Lateralization MLP: A Simple Brain-inspired Architecture for Diffusion [20.437172251393257]
並列化(L-MLP)と呼ばれる,単純だが効果的なアーキテクチャを提案する。
人間の脳の側方化に触発されて、我々は、L-MLPと呼ばれる新しい単純で効果的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-05-25T07:10:02Z) - Improved Baselines for Data-efficient Perceptual Augmentation of LLMs [66.05826802808177]
コンピュータビジョンでは、画像キャプションや視覚的質問応答などの視覚言語タスクに、大きな言語モデル(LLM)を用いることができる。
複数のタスクにまたがる異なる対面機構を実験的に評価する。
異なるタスク間で(ほぼ)最適な結果をもたらす新しいインターフェース機構を同定し、トレーニング時間を4倍短縮する。
論文 参考訳(メタデータ) (2024-03-20T10:57:17Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - SpArX: Sparse Argumentative Explanations for Neural Networks [Technical
Report] [14.787292425343527]
我々は、多層パーセプトロン(MLP)と定量的議論フレームワーク(QAF)の関係を利用して、ニューラルネットワーク(NN)の力学に関する議論的な説明を作成する。
当社のSpArX法は,まず,元の構造をできるだけ多く維持しながらスパースを分散させ,その後に翻訳し,グローバルおよび/またはローカルな説明を生成する。
実験により、SpArXは既存のアプローチよりも忠実に説明でき、同時にニューラルネットワークの実際の推論プロセスについて深い洞察を提供する。
論文 参考訳(メタデータ) (2023-01-23T17:20:25Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - MAXIM: Multi-Axis MLP for Image Processing [19.192826213493838]
本稿では,画像処理タスクの汎用的なバックボーンとして,MAXIMと呼ばれるマルチ軸アーキテクチャを提案する。
MAXIMはUNet型の階層構造を使用し、空間的なゲートによって可能となる長距離相互作用をサポートする。
その結果, MAXIMモデルにより, 画像処理タスクの10以上のベンチマークにおいて, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-01-09T09:59:32Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。