論文の概要: MLPs Learn In-Context on Regression and Classification Tasks
- arxiv url: http://arxiv.org/abs/2405.15618v3
- Date: Tue, 25 Feb 2025 16:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:20:08.584354
- Title: MLPs Learn In-Context on Regression and Classification Tasks
- Title(参考訳): MLPは回帰と分類課題の文脈を学習する
- Authors: William L. Tong, Cengiz Pehlevan,
- Abstract要約: In-context Learning (ICL) はしばしばトランスフォーマーモデルのユニークな特徴であると考えられている。
マルチ層パーセプトロン(MLP)もコンテキスト内で学習可能であることを示す。
その結果, 合成環境における経験者の予期せぬ能力が浮き彫りになった。
- 参考スコア(独自算出の注目度): 28.13046236900491
- License:
- Abstract: In-context learning (ICL), the remarkable ability to solve a task from only input exemplars, is often assumed to be a unique hallmark of Transformer models. By examining commonly employed synthetic ICL tasks, we demonstrate that multi-layer perceptrons (MLPs) can also learn in-context. Moreover, MLPs, and the closely related MLP-Mixer models, learn in-context comparably with Transformers under the same compute budget in this setting. We further show that MLPs outperform Transformers on a series of classical tasks from psychology designed to test relational reasoning, which are closely related to in-context classification. These results underscore a need for studying in-context learning beyond attention-based architectures, while also challenging prior arguments against MLPs' ability to solve relational tasks. Altogether, our results highlight the unexpected competence of MLPs in a synthetic setting, and support the growing interest in all-MLP alternatives to Transformer architectures. It remains unclear how MLPs perform against Transformers at scale on real-world tasks, and where a performance gap may originate. We encourage further exploration of these architectures in more complex settings to better understand the potential comparative advantage of attention-based schemes.
- Abstract(参考訳): In-context Learning (ICL) は、入力例のみからタスクを解く驚くべき能力であり、トランスフォーマーモデルのユニークな特徴であるとしばしば考えられている。
一般的に用いられる合成ICLタスクを調べることで、多層パーセプトロン(MLP)が文脈内でも学習できることを実証する。
さらに、MLPと密接に関連するMLP-Mixerモデルは、この設定で同じ計算予算の下でTransformerと互換性のあるインコンテキストを学習する。
さらに,MLPは,文脈内分類と密接に関連する関係性推論をテストするために設計された心理学から,一連の古典的タスクにおいてトランスフォーマーよりも優れていることを示す。
これらの結果は、注意に基づくアーキテクチャを超えてコンテキスト内学習を研究することの必要性を浮き彫りにするとともに、MLPのリレーショナルタスクの解決能力に対する事前の議論にも挑戦する。
また,この結果から,合成環境におけるMLPの予期せぬ能力を強調し,トランスフォーマーアーキテクチャへの全MLP代替への関心の高まりを支持する。
MLPが現実世界のタスクにおいて大規模にTransformerに対してどのように機能するか、パフォーマンスのギャップがどこから生じるのかは、まだ不明である。
注意に基づくスキームの潜在的な利点をよりよく理解するために、より複雑な環境でこれらのアーキテクチャのさらなる探索を推奨する。
関連論文リスト
- KAN or MLP: A Fairer Comparison [63.794304207664176]
本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。
パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。
我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
論文 参考訳(メタデータ) (2024-07-23T17:43:35Z) - MLPs Compass: What is learned when MLPs are combined with PLMs? [20.003022732050994]
堅牢な構造キャプチャ機能を実現するマルチレイヤ・パーセプトロン(MLP)モジュールは、グラフニューラルネットワーク(GNN)よりも優れています。
本稿は,PLMの言語情報取得能力が向上するかどうかを定量化することを目的とする。
論文 参考訳(メタデータ) (2024-01-03T11:06:01Z) - MLP-AIR: An Efficient MLP-Based Method for Actor Interaction Relation
Learning in Group Activity Recognition [4.24515544235173]
グループ活動認識(GAR)は,グループ内のアクターと時間的相互作用関係を学習することにより,グループの活動カテゴリを予測することを目的としている。
これまでの研究は主に、よく設計されたGCNやトランスフォーマーによる相互作用関係を学習してきた。
本稿では,GARにおけるアクターインタラクション関係学習(MLP-AIR)の新しい手法を設計する。
論文 参考訳(メタデータ) (2023-04-18T08:07:23Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - MLP Architectures for Vision-and-Language Modeling: An Empirical Study [91.6393550858739]
視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
論文 参考訳(メタデータ) (2021-12-08T18:26:19Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。