Fugu-MT 論文翻訳(概要): Benchmarking down-scaled (not so large) pre-trained language models

論文の概要: Benchmarking down-scaled (not so large) pre-trained language models

arxiv url: http://arxiv.org/abs/2105.04876v1
Date: Tue, 11 May 2021 09:01:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-12 14:10:47.254429
Title: Benchmarking down-scaled (not so large) pre-trained language models
Title（参考訳）: ダウンスケール(それほど大きくない)事前訓練言語モデルのベンチマーク
Authors: M. A{\ss}enmacher, P. Schulze, C. Heumann
Abstract要約: 大規模なトランスフォーマーベースの言語モデルは、異なる数のステップと異なるバッチサイズのコーパスで事前学習されている。形状パラメータとモデルサイズが異なる3つの事前学習目標を比較し、事前学習ステップの数とバッチサイズを変化させる。私たちの実験では、NSP +BERTスタイルは、標準LM目標と同様に一貫して(RoBERTaスタイル)を上回ります。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Transformer-based language models are pre-trained on corpora of varying sizes, for a different number of steps and with different batch sizes. At the same time, more fundamental components, such as the pre-training objective or architectural hyperparameters, are modified. In total, it is therefore difficult to ascribe changes in performance to specific factors. Since searching the hyperparameter space over the full systems is too costly, we pre-train down-scaled versions of several popular Transformer-based architectures on a common pre-training corpus and benchmark them on a subset of the GLUE tasks (Wang et al., 2018). Specifically, we systematically compare three pre-training objectives for different shape parameters and model sizes, while also varying the number of pre-training steps and the batch size. In our experiments MLM + NSP (BERT-style) consistently outperforms MLM (RoBERTa-style) as well as the standard LM objective. Furthermore, we find that additional compute should be mainly allocated to an increased model size, while training for more steps is inefficient. Based on these observations, as a final step we attempt to scale up several systems using compound scaling (Tan and Le, 2019) adapted to Transformer-based language models.
Abstract（参考訳）: 大規模なトランスフォーマーベースの言語モデルは、異なる数のステップと異なるバッチサイズのコーパスで事前学習されている。同時に、事前訓練対象やアーキテクチャハイパーパラメータといった、より基本的なコンポーネントも修正される。したがって、パフォーマンスの変化を特定の要因に割り当てることは困難である。フルシステム上でハイパーパラメータ空間を探索するにはコストがかかりすぎるため、一般的な事前トレーニングコーパス上で人気のあるTransformerベースのアーキテクチャのダウンスケールバージョンを事前トレーニングし、GLUEタスクのサブセットでベンチマークする(Wang et al., 2018)。具体的には,3つの事前学習対象を異なる形状パラメータとモデルサイズで体系的に比較するとともに,事前学習ステップ数とバッチサイズも比較した。 MLM + NSP (BERT-style) はMLM(RoBERTa-style) と標準のLM目標を一貫して上回ります。さらに,さらなるステップのトレーニングは非効率であるのに対して,追加の計算はモデルサイズの増加に主に割り当てるべきである。これらの観察に基づいて、最後のステップとして、トランスフォーマティブベースの言語モデルに適合した複合スケーリング(tanとle、2019)を使用して、いくつかのシステムをスケールアップすることを試みる。

関連論文リスト

AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Scaling Law for Language Models Training Considering Batch Size [17.09348741898811]
大規模言語モデル(LLM)は近年顕著な進歩を遂げており、この急速な進歩においてスケーリング法則が重要な役割を担っている。本稿は,LLMトレーニングの実践において,重要なハイパーパラメータ,すなわちグローバルバッチサイズがどのように影響するかを実証的に検討する。モデルのサイズとトレーニングデータ量に関する基本的なスケーリング法則を確立します。次に,バッチサイズや学習率の変化が,これらのモデルの収束と一般化にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-12-02T13:58:35Z)
Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文参考訳（メタデータ） (2024-07-13T10:08:55Z)
Scaling-laws for Large Time-series Models [2.0671213754662343]
時系列予測は言語に類似したシーケンシャルな構造を共有しており、大規模なトランスフォーマーアーキテクチャにも適用可能である。基本デコーダのみの時系列変換モデルは,LSMと類似のスケーリング挙動を示すことを示す。我々は、パラメータ数、データセットサイズ、およびトレーニング計算に関して、初めてパワー則スケーリング関係をトレーニングし、確立する異種時系列データの大規模なコーパスを組み立てる。
論文参考訳（メタデータ） (2024-05-22T17:48:17Z)
Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文参考訳（メタデータ） (2024-02-04T06:55:55Z)
Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文参考訳（メタデータ） (2023-11-14T12:37:25Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文参考訳（メタデータ） (2022-02-06T20:07:35Z)
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2021-06-10T15:41:53Z)
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity [35.84448624327473]
MoEルーティングアルゴリズムを簡略化し、通信コストと計算コストを削減して直感的に改善されたモデルを設計する。我々は、初めて低精度(bfloat16)フォーマットで、大きなスパースモデルを訓練できることを示した。我々は,t5-base と t5-large に基づいてモデルを設計し,同じ計算資源で事前学習速度を最大7倍向上させる。
論文参考訳（メタデータ） (2021-01-11T16:11:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。