論文の概要: Unified Scaling Laws for Routed Language Models
- arxiv url: http://arxiv.org/abs/2202.01169v1
- Date: Wed, 2 Feb 2022 17:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 13:50:29.997647
- Title: Unified Scaling Laws for Routed Language Models
- Title(参考訳): 経路型言語モデルの統一スケーリング則
- Authors: Aidan Clark, Diego de las Casas, Aurelia Guy, Arthur Mensch, Michela
Paganini, Jordan Hoffmann, Bogdan Damoc, Blake Hechtman, Trevor Cai,
Sebastian Borgeaud, George van den Driessche, Eliza Rutherford, Tom Hennigan,
Matthew Johnson, Katie Millican, Albin Cassirer, Chris Jones, Elena
Buchatskaya, David Budden, Laurent Sifre, Simon Osindero, Oriol Vinyals, Jack
Rae, Erich Elsen, Koray Kavukcuoglu, Karen Simonyan
- Abstract要約: ルーティングネットワークのスケーリング動作について検討する。
これらのモデルでは、パラメータカウントと計算要求が2つの独立した軸を形成し、それによって性能が向上する。
我々は、標準言語モデルで知られているものを一般化する2つの変数で定義されたスケーリング法則を導出し、正当化する。
- 参考スコア(独自算出の注目度): 46.56970336859628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of a language model has been shown to be effectively modeled
as a power-law in its parameter count. Here we study the scaling behaviors of
Routing Networks: architectures that conditionally use only a subset of their
parameters while processing an input. For these models, parameter count and
computational requirement form two independent axes along which an increase
leads to better performance. In this work we derive and justify scaling laws
defined on these two variables which generalize those known for standard
language models and describe the performance of a wide range of routing
architectures trained via three different techniques. Afterwards we provide two
applications of these laws: first deriving an Effective Parameter Count along
which all models scale at the same rate, and then using the scaling
coefficients to give a quantitative comparison of the three routing techniques
considered. Our analysis derives from an extensive evaluation of Routing
Networks across five orders of magnitude of size, including models with
hundreds of experts and hundreds of billions of parameters.
- Abstract(参考訳): 言語モデルの性能は、パラメータ数におけるパワーローとして効果的にモデル化されていることが示されている。
本稿では,入力処理中にパラメータのサブセットのみを条件付きで使用するアーキテクチャであるルーティングネットワークのスケーリング挙動について検討する。
これらのモデルでは、パラメータカウントと計算要求が2つの独立した軸を形成し、それによってパフォーマンスが向上する。
本研究は,これら2つの変数に定義されたスケーリング法則を導出・正当化し,標準言語モデルで知られているものを一般化し,3つの異なる手法を用いて訓練された幅広いルーティングアーキテクチャの性能を記述する。
その後、まず全てのモデルが同じ速度でスケールする有効パラメータカウントを導出し、次にスケーリング係数を用いて検討された3つのルーティング手法の定量的比較を行う。
我々の分析は、数百のエキスパートと数十億のパラメータを持つモデルを含む5桁のサイズのルーティングネットワークを広範囲に評価することに由来する。
関連論文リスト
- Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Exploring and Evaluating Personalized Models for Code Generation [9.25440316608194]
パーソナライズのための変換器モデルの微調整を評価する。
i) すべてのモデルパラメータをチューニングできるカスタム微調整。
コード生成のためのこれらの微調整戦略を比較し、様々なデプロイメントシナリオにおいて、それぞれの潜在的な一般化とコスト効果について議論する。
論文 参考訳(メタデータ) (2022-08-29T23:28:46Z) - Analyzing Bagging Methods for Language Models [0.5161531917413708]
我々は,バッジ言語モデルの解析を行い,単一言語モデルと最終モデルサイズで大まかに等価なタグ付きアンサンブルを比較した。
我々のアンサンブル法は、少なくとも1つのLMベースラインとほぼ同等である。
論文 参考訳(メタデータ) (2022-07-19T06:30:37Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Automatic Learning of Subword Dependent Model Scales [50.105894487730545]
本研究では,アテンションエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールを手動チューニングと同様に効果的に学習できることを示す。
提案手法は,手動では調整できないサブワード依存モデル尺度に拡張され,LBSは7%,SWBは3%改善した。
論文 参考訳(メタデータ) (2021-10-18T13:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。