論文の概要: MLPs Learn In-Context
- arxiv url: http://arxiv.org/abs/2405.15618v1
- Date: Fri, 24 May 2024 15:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:40:24.414713
- Title: MLPs Learn In-Context
- Title(参考訳): MLPは文脈を学ぶ
- Authors: William L. Tong, Cengiz Pehlevan,
- Abstract要約: マルチ層パーセプトロン(MLP)もコンテキスト内で学習可能であることを示す。
我々は、リレーショナルと密接に関連するミクサーモデルが、同じ予算を与えられたトランスフォーマーと競合的にテキスト内で学習することを発見した。
- 参考スコア(独自算出の注目度): 28.13046236900491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL), the remarkable ability to solve a task from only input exemplars, has commonly been assumed to be a unique hallmark of Transformer models. In this study, we demonstrate that multi-layer perceptrons (MLPs) can also learn in-context. Moreover, we find that MLPs, and the closely related MLP-Mixer models, learn in-context competitively with Transformers given the same compute budget. We further show that MLPs outperform Transformers on a subset of ICL tasks designed to test relational reasoning. These results suggest that in-context learning is not exclusive to Transformers and highlight the potential of exploring this phenomenon beyond attention-based architectures. In addition, MLPs' surprising success on relational tasks challenges prior assumptions about simple connectionist models. Altogether, our results endorse the broad trend that ``less inductive bias is better" and contribute to the growing interest in all-MLP alternatives to task-specific architectures.
- Abstract(参考訳): In-context Learning (ICL) は、入力例のみからタスクを解く驚くべき能力であり、一般的にトランスフォーマーモデルのユニークな特徴であると考えられている。
本研究では,多層パーセプトロン(MLP)がコンテキスト内で学習可能であることを示す。
さらに,MLP と近縁な MLP-Mixer モデルは,同じ計算予算を与えられた Transformer と競合的に学習できることが判明した。
さらに,リレーショナル推論をテストするために設計された ICL タスクのサブセットにおいて,MPP が Transformer より優れていることを示す。
これらの結果は、文脈内学習はトランスフォーマー専用ではないことを示唆し、注意に基づくアーキテクチャを超えてこの現象を探求する可能性を強調している。
さらに、リレーショナルタスクにおけるMLPの驚くべき成功は、単純なコネクショナリストモデルに関する前提に挑戦する。
いずれにせよ,我々の結果は,‘非帰納的バイアスがよい’という広範な傾向を支持し,タスク固有のアーキテクチャに対するMLP代替案への関心の高まりに寄与している。
関連論文リスト
- KAN or MLP: A Fairer Comparison [63.794304207664176]
本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。
パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。
我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
論文 参考訳(メタデータ) (2024-07-23T17:43:35Z) - MLPs Compass: What is learned when MLPs are combined with PLMs? [20.003022732050994]
堅牢な構造キャプチャ機能を実現するマルチレイヤ・パーセプトロン(MLP)モジュールは、グラフニューラルネットワーク(GNN)よりも優れています。
本稿は,PLMの言語情報取得能力が向上するかどうかを定量化することを目的とする。
論文 参考訳(メタデータ) (2024-01-03T11:06:01Z) - MLP-AIR: An Efficient MLP-Based Method for Actor Interaction Relation
Learning in Group Activity Recognition [4.24515544235173]
グループ活動認識(GAR)は,グループ内のアクターと時間的相互作用関係を学習することにより,グループの活動カテゴリを予測することを目的としている。
これまでの研究は主に、よく設計されたGCNやトランスフォーマーによる相互作用関係を学習してきた。
本稿では,GARにおけるアクターインタラクション関係学習(MLP-AIR)の新しい手法を設計する。
論文 参考訳(メタデータ) (2023-04-18T08:07:23Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - MLP Architectures for Vision-and-Language Modeling: An Empirical Study [91.6393550858739]
視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
論文 参考訳(メタデータ) (2021-12-08T18:26:19Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。