論文の概要: giMLPs: Gate with Inhibition Mechanism in MLPs
- arxiv url: http://arxiv.org/abs/2208.00929v2
- Date: Tue, 2 Aug 2022 09:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 11:08:10.729767
- Title: giMLPs: Gate with Inhibition Mechanism in MLPs
- Title(参考訳): giMLPs:MLPの抑制機構を持つゲート
- Authors: Cheng Kang, Jindich Prokop, Lei Tong, Huiyu Zhou, Yong Hu, Daneil
Novak
- Abstract要約: 抑制付きゲート(giMLP)は、ImageNet分類タスクで同等のパフォーマンスが得られる。
Gate With Inhibitionは、NLUタスクのほとんどの部分において、追加の事前トレーニングなしで魅力的な結果を得ることができる。
ImageNetと12の言語ダウンストリームタスクの実験は、Gate With Inhibitionの有効性を実証している。
- 参考スコア(独自算出の注目度): 13.288519661160898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new model architecture, gate with inhibition MLP
(giMLP).The gate with inhibition on CycleMLP (gi-CycleMLP) can produce equal
performance on the ImageNet classification task, and it also improves the BERT,
Roberta, and DeBERTaV3 models depending on two novel techniques. The first is
the gating MLP, where matrix multiplications between the MLP and the trunk
Attention input in further adjust models' adaptation. The second is inhibition
which inhibits or enhances the branch adjustment, and with the inhibition
levels increasing, it offers models more muscular features restriction. We show
that the giCycleMLP with a lower inhibition level can be competitive with the
original CycleMLP in terms of ImageNet classification accuracy. In addition, we
also show through a comprehensive empirical study that these techniques
significantly improve the performance of fine-tuning NLU downstream tasks. As
for the gate with inhibition MLPs on DeBERTa (giDeBERTa) fine-tuning, we find
it can achieve appealing results on most parts of NLU tasks without any extra
pretraining again. We also find that with the use of Gate With Inhibition, the
activation function should have a short and smooth negative tail, with which
the unimportant features or the features that hurt models can be moderately
inhibited. The experiments on ImageNet and twelve language downstream tasks
demonstrate the effectiveness of Gate With Inhibition, both for image
classification and for enhancing the capacity of nature language fine-tuning
without any extra pretraining.
- Abstract(参考訳): 本稿では,新しいモデルアーキテクチャであるGate with inhibition MLP (giMLP)を提案する。
CycleMLP(gi-CycleMLP)を阻害するゲートは、ImageNetの分類タスクで同等の性能を発揮し、また、2つの新しい技術に依存してBERT、Roberta、DeBERTaV3モデルを改善する。
1つ目は Gating MLP で、モデルの適応を更に調整するために MLP と trunk Attention の行列乗算を行う。
2つ目は分岐調節を阻害または増強する抑制であり、抑制レベルが増大するにつれて、より筋肉的な特徴の制限をモデルに提供する。
抑制レベルが低いgiCycleMLPは、ImageNet分類精度の観点から、オリジナルのCycleMLPと競合できることを示す。
さらに,これらの手法が細調整したNLU下流タスクの性能を著しく向上させるという,総合的な実証研究を通しても示している。
DeBERTa(giDeBERTa)の微細調整における MLP 抑制ゲートについては,NLU タスクのほとんどの部分において,追加の事前訓練を行なわずに魅力的な結果が得られる。
また,ゲートが阻害された場合,アクティベーション関数は短く滑らかな負の尾を持ち,重要でない特徴や傷ついたモデルが適度に阻害されることがある。
imagenetと12の言語下流タスクにおける実験は、画像分類と自然言語微調整の能力向上の両方において、事前学習なしでゲートを阻害する効果を示している。
関連論文リスト
- MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - NOSMOG: Learning Noise-robust and Structure-aware MLPs on Graphs [41.85649409565574]
グラフネットワーク(GNN)は、非ユークリッド構造データを扱う上での有効性を実証している。
既存の方法は、ノードコンテンツ機能にのみ依存するマルチ層パーセプトロン(MLP)をトレーニングすることで、このスケーラビリティ問題に対処しようとする。
本稿では,NOSMOG(Noise-robust Structure-Awares On Graphs)を学習し,その課題を克服する。
論文 参考訳(メタデータ) (2022-08-22T01:47:07Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。