論文の概要: Scaling Laws vs Model Architectures: How does Inductive Bias Influence
Scaling?
- arxiv url: http://arxiv.org/abs/2207.10551v1
- Date: Thu, 21 Jul 2022 15:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:28:05.578349
- Title: Scaling Laws vs Model Architectures: How does Inductive Bias Influence
Scaling?
- Title(参考訳): スケーリング法則とモデルアーキテクチャ: 帰納的バイアスはスケーリングにどのように影響するか?
- Authors: Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William
Fedus, Jinfeng Rao, Sharan Narang, Vinh Q. Tran, Dani Yogatama, Donald
Metzler
- Abstract要約: 本稿では,10種類のモデルアーキテクチャのスケーリング挙動の系統的研究を行う。
アーキテクチャはスケーリングを行う上で重要な考慮事項であり、最高のパフォーマンスモデルが異なるスケールで変動可能であることを示す。
- 参考スコア(独自算出の注目度): 91.78878523252897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been a lot of interest in the scaling properties of Transformer
models. However, not much has been done on the front of investigating the
effect of scaling properties of different inductive biases and model
architectures. Do model architectures scale differently? If so, how does
inductive bias affect scaling behaviour? How does this influence upstream
(pretraining) and downstream (transfer)? This paper conducts a systematic study
of scaling behaviour of ten diverse model architectures such as Transformers,
Switch Transformers, Universal Transformers, Dynamic convolutions, Performers,
and recently proposed MLP-Mixers. Via extensive experiments, we show that (1)
architecture is an indeed an important consideration when performing scaling
and (2) the best performing model can fluctuate at different scales. We believe
that the findings outlined in this work has significant implications to how
model architectures are currently evaluated in the community.
- Abstract(参考訳): Transformerモデルのスケーリング特性には,多くの関心が寄せられている。
しかし、異なる帰納的バイアスとモデルアーキテクチャのスケーリング特性の影響を調査する面ではあまり行われていない。
モデルアーキテクチャはスケールが違うか?
もしそうなら、インダクティブバイアスはスケーリングの振る舞いにどのように影響しますか?
これは上流(プレトレーニング)と下流(トランスファー)にどのように影響しますか?
本稿では,トランスフォーマー,スイッチトランスフォーマー,ユニバーサルトランスフォーマー,ダイナミックコンボリューション,パフォーマ,最近提案されたMLPミクサなどの10種類のモデルアーキテクチャのスケーリング挙動について,系統的研究を行う。
広範な実験を通じて,(1) アーキテクチャはスケーリングを行う上で重要な考慮事項であり,(2) ベストパフォーマンスモデルが異なるスケールで変動可能であることを示す。
この研究で概説された結果は、モデルアーキテクチャが現在コミュニティでどのように評価されているかに大きな影響を及ぼすと信じています。
関連論文リスト
- Setting the Record Straight on Transformer Oversmoothing [35.125957267464756]
モデル深度が増加するにつれて、トランスフォーマーは過度に滑らかになる。
平滑化挙動は値と射影重みの固有スペクトルに依存することを示す。
解析により,トランスフォーマー更新方程式の重み付けをパラメータ化して平滑化挙動に影響を及ぼす簡単な方法が明らかになった。
論文 参考訳(メタデータ) (2024-01-09T01:19:03Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - The Lie Derivative for Measuring Learned Equivariance [84.29366874540217]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。
その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。
例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文 参考訳(メタデータ) (2022-10-06T15:20:55Z) - Understanding Scaling Laws for Recommendation Models [1.6283945233720964]
DLRMスタイルレコメンデーションモデル,特にClick-Through Rate(CTR)の実証スケーリング法則について検討する。
データ、パラメータ、計算の3つの異なるリソース次元に沿ってスケーリング効率を特徴付ける。
パラメータスケーリングは、現在研究中のモデルアーキテクチャにとって絶大であり、より高いパフォーマンスのモデルアーキテクチャが出現するまでは、データスケーリングが先進的な道であることを示す。
論文 参考訳(メタデータ) (2022-08-17T19:13:17Z) - What do Toothbrushes do in the Kitchen? How Transformers Think our World
is Structured [137.83584233680116]
本稿では,トランスフォーマーに基づく言語モデルがオブジェクト関係に関する知識を抽出するのにどの程度役立つかを検討する。
異なる類似度尺度と組み合わせたモデルが,抽出できる知識の量で大きく異なることを示す。
驚くべきことに、静的モデルは、コンテキスト化されたモデルと同様に、ほぼ同じようにパフォーマンスします。
論文 参考訳(メタデータ) (2022-04-12T10:00:20Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。