論文の概要: Benchmarking down-scaled (not so large) pre-trained language models
- arxiv url: http://arxiv.org/abs/2105.04876v1
- Date: Tue, 11 May 2021 09:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:10:47.254429
- Title: Benchmarking down-scaled (not so large) pre-trained language models
- Title(参考訳): ダウンスケール(それほど大きくない)事前訓練言語モデルのベンチマーク
- Authors: M. A{\ss}enmacher, P. Schulze, C. Heumann
- Abstract要約: 大規模なトランスフォーマーベースの言語モデルは、異なる数のステップと異なるバッチサイズのコーパスで事前学習されている。
形状パラメータとモデルサイズが異なる3つの事前学習目標を比較し、事前学習ステップの数とバッチサイズを変化させる。
私たちの実験では、NSP +BERTスタイルは、標準LM目標と同様に一貫して(RoBERTaスタイル)を上回ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Transformer-based language models are pre-trained on corpora of varying
sizes, for a different number of steps and with different batch sizes. At the
same time, more fundamental components, such as the pre-training objective or
architectural hyperparameters, are modified. In total, it is therefore
difficult to ascribe changes in performance to specific factors. Since
searching the hyperparameter space over the full systems is too costly, we
pre-train down-scaled versions of several popular Transformer-based
architectures on a common pre-training corpus and benchmark them on a subset of
the GLUE tasks (Wang et al., 2018). Specifically, we systematically compare
three pre-training objectives for different shape parameters and model sizes,
while also varying the number of pre-training steps and the batch size. In our
experiments MLM + NSP (BERT-style) consistently outperforms MLM (RoBERTa-style)
as well as the standard LM objective. Furthermore, we find that additional
compute should be mainly allocated to an increased model size, while training
for more steps is inefficient. Based on these observations, as a final step we
attempt to scale up several systems using compound scaling (Tan and Le, 2019)
adapted to Transformer-based language models.
- Abstract(参考訳): 大規模なトランスフォーマーベースの言語モデルは、異なる数のステップと異なるバッチサイズのコーパスで事前学習されている。
同時に、事前訓練対象やアーキテクチャハイパーパラメータといった、より基本的なコンポーネントも修正される。
したがって、パフォーマンスの変化を特定の要因に割り当てることは困難である。
フルシステム上でハイパーパラメータ空間を探索するにはコストがかかりすぎるため、一般的な事前トレーニングコーパス上で人気のあるTransformerベースのアーキテクチャのダウンスケールバージョンを事前トレーニングし、GLUEタスクのサブセットでベンチマークする(Wang et al., 2018)。
具体的には,3つの事前学習対象を異なる形状パラメータとモデルサイズで体系的に比較するとともに,事前学習ステップ数とバッチサイズも比較した。
MLM + NSP (BERT-style) はMLM(RoBERTa-style) と標準のLM目標を一貫して上回ります。
さらに,さらなるステップのトレーニングは非効率であるのに対して,追加の計算はモデルサイズの増加に主に割り当てるべきである。
これらの観察に基づいて、最後のステップとして、トランスフォーマティブベースの言語モデルに適合した複合スケーリング(tanとle、2019)を使用して、いくつかのシステムをスケールアップすることを試みる。
関連論文リスト
- Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Scaling-laws for Large Time-series Models [2.0671213754662343]
時系列予測は言語に類似したシーケンシャルな構造を共有しており、大規模なトランスフォーマーアーキテクチャにも適用可能である。
基本デコーダのみの時系列変換モデルは,LSMと類似のスケーリング挙動を示すことを示す。
我々は、パラメータ数、データセットサイズ、およびトレーニング計算に関して、初めてパワー則スケーリング関係をトレーニングし、確立する異種時系列データの大規模なコーパスを組み立てる。
論文 参考訳(メタデータ) (2024-05-22T17:48:17Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Switch Transformers: Scaling to Trillion Parameter Models with Simple
and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。
我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。
我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文 参考訳(メタデータ) (2021-01-11T16:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。