論文の概要: Scaling MLPs: A Tale of Inductive Bias
- arxiv url: http://arxiv.org/abs/2306.13575v3
- Date: Tue, 3 Oct 2023 09:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 10:52:39.703078
- Title: Scaling MLPs: A Tale of Inductive Bias
- Title(参考訳): mlpのスケーリング: 帰納的バイアスの話
- Authors: Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann
- Abstract要約: 深層学習における最も基本的な構成要素である多層パーセプトロン(MLP)を再考する。
視覚タスクにおける性能の限界について検討する。
- 参考スコア(独自算出の注目度): 40.71890456965875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we revisit the most fundamental building block in deep learning,
the multi-layer perceptron (MLP), and study the limits of its performance on
vision tasks. Empirical insights into MLPs are important for multiple reasons.
(1) Given the recent narrative "less inductive bias is better", popularized due
to transformers eclipsing convolutional models, it is natural to explore the
limits of this hypothesis. To that end, MLPs offer an ideal test bed, as they
lack any vision-specific inductive bias. (2) MLPs have almost exclusively been
the main protagonist in the deep learning theory literature due to their
mathematical simplicity, serving as a proxy to explain empirical phenomena
observed for more complex architectures. Surprisingly, experimental datapoints
for MLPs are very difficult to find in the literature, especially when coupled
with large pre-training protocols. This discrepancy between practice and theory
is worrying: Do MLPs reflect the empirical advances exhibited by practical
models? Or do theorists need to rethink the role of MLPs as a proxy? We provide
insights into both these aspects. We show that the performance of MLPs
drastically improves with scale (95% on CIFAR10, 82% on CIFAR100, 58% on
ImageNet ReaL), highlighting that lack of inductive bias can indeed be
compensated. We observe that MLPs mimic the behaviour of their modern
counterparts faithfully, with some components in the learning setting however
exhibiting stronger or unexpected behaviours. Due to their inherent
computational efficiency, large pre-training experiments become more accessible
for academic researchers. All of our experiments were run on a single GPU.
- Abstract(参考訳): 本研究では、ディープラーニングにおける最も基本的な構成要素である多層パーセプトロン(MLP)を再検討し、視覚タスクにおけるその性能の限界について検討する。
MLPに対する経験的洞察は、複数の理由から重要である。
1) 変圧器による畳み込みモデルによる近年の物語「非帰納的バイアスは良い」を考えると、この仮説の限界を探求するのは自然である。
そのため、MDPは視覚特有の誘導バイアスを欠いているため、理想的なテストベッドを提供する。
2) MLPは, より複雑なアーキテクチャで観察される経験的現象を説明するプロキシとして機能し, 数学的単純さから, 深層学習理論文学の主役に過ぎなかった。
驚くべきことに、MLPの実験的なデータポイントは、特に大規模な事前学習プロトコルと組み合わせた場合、文献では非常に見つからない。
mlpは実践モデルによって示された経験的進歩を反映していますか?
それとも理論家は、MLPをプロキシとしての役割を再考する必要があるのだろうか?
これら2つの側面に洞察を与えます。
CIFAR10は95%,CIFAR100は82%,ImageNet ReaLは58%) により, MLPの性能は劇的に向上し, 帰納バイアスの欠如が実際に補償できることを示した。
我々は,MLPが現代人の行動に忠実に模倣しているのを観察し,学習環境のいくつかの構成要素は,強い行動や予期せぬ行動を示す。
計算効率が本質的に高いため、学術研究者にとって大きな事前学習実験がより利用できるようになる。
私たちの実験はすべて、1つのGPU上で実行されました。
関連論文リスト
- KAN or MLP: A Fairer Comparison [63.794304207664176]
本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。
パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。
我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
論文 参考訳(メタデータ) (2024-07-23T17:43:35Z) - A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - MLPs Learn In-Context on Regression and Classification Tasks [28.13046236900491]
In-context Learning (ICL) はしばしばトランスフォーマーモデルのユニークな特徴であると考えられている。
マルチ層パーセプトロン(MLP)もコンテキスト内で学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-24T15:04:36Z) - MLP Architectures for Vision-and-Language Modeling: An Empirical Study [91.6393550858739]
視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
論文 参考訳(メタデータ) (2021-12-08T18:26:19Z) - Are we ready for a new paradigm shift? A Survey on Visual Deep MLP [33.00328314841369]
初めて出現したニューラルネットワーク構造である多層パーセプトロン(MLP)は大きなヒットとなった。
ハードウェア・コンピューティングのパワーとデータセットのサイズに制約され、かつては何十年にもわたって沈んだ。
我々は、手動の特徴抽出から、局所受容野を持つCNNへのパラダイムシフト、さらにグローバル受容野を持つTransformへのパラダイムシフトを目撃した。
論文 参考訳(メタデータ) (2021-11-07T12:02:00Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Generalizing MLPs With Dropouts, Batch Normalization, and Skip
Connections [0.0]
多層パーセプトロン(MLP)は、通常、非線形活性化関数を持つ複数の完全に接続された層から構成される。
経験的に、すべてのリニアレイヤを白化し、スキップ接続を追加することで、提案したアーキテクチャがより良いパフォーマンスをもたらすことを示しています。
論文 参考訳(メタデータ) (2021-08-18T14:59:54Z) - RaftMLP: Do MLP-based Models Dream of Winning Over Computer Vision? [0.0]
CNNはコンピュータビジョンの世界では過去10年間、最高位に君臨してきたが、最近はTransformerの人気が高まっている。
特に、我々の研究は、モデルが誘導バイアスを採用することでCNNを置き換える可能性を示唆している。
提案モデルであるRaftMLPは,計算複雑性,パラメータ数,実際のメモリ使用量のバランスが良好である。
論文 参考訳(メタデータ) (2021-08-09T23:55:24Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。