論文の概要: What Language Model to Train if You Have One Million GPU Hours?
- arxiv url: http://arxiv.org/abs/2210.15424v1
- Date: Thu, 27 Oct 2022 13:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:15:55.962822
- Title: What Language Model to Train if You Have One Million GPU Hours?
- Title(参考訳): GPUが100万時間あればトレーニングできる言語モデルは?
- Authors: Teven Le Scao, Thomas Wang, Daniel Hesslow, Lucile Saulnier, Stas
Bekman, M Saiful Bari, Stella Bideman, Hady Elsahar, Niklas Muennighoff,
Jason Phang, Ofir Press, Colin Raffel, Victor Sanh, Sheng Shen, Lintang
Sutawika, Jaesung Tae, Zheng Xin Yong, Julien Launay, Iz Beltagy
- Abstract要約: モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
- 参考スコア(独自算出の注目度): 54.32062236748831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The crystallization of modeling methods around the Transformer architecture
has been a boon for practitioners. Simple, well-motivated architectural
variations can transfer across tasks and scale, increasing the impact of
modeling research. However, with the emergence of state-of-the-art 100B+
parameters models, large language models are increasingly expensive to
accurately design and train. Notably, it can be difficult to evaluate how
modeling decisions may impact emergent capabilities, given that these
capabilities arise mainly from sheer scale alone. In the process of building
BLOOM--the Big Science Large Open-science Open-access Multilingual language
model--our goal is to identify an architecture and training setup that makes
the best use of our 1,000,000 A100-GPU-hours budget. Specifically, we perform
an ablation study at the billion-parameter scale comparing different modeling
practices and their impact on zero-shot generalization. In addition, we study
the impact of various popular pre-training corpora on zero-shot generalization.
We also study the performance of a multilingual model and how it compares to
the English-only one. Finally, we consider the scaling behaviour of
Transformers to choose the target model size, shape, and training setup. All
our models and code are open-sourced at https://huggingface.co/bigscience .
- Abstract(参考訳): トランスフォーマーアーキテクチャ周辺のモデリング手法の結晶化は、実践者にとって朗報である。
シンプルでモチベーションのよいアーキテクチャのバリエーションは、タスクやスケールをまたいで移行し、モデリング研究の影響を増大させます。
しかし、最先端の100b+パラメータモデルの出現により、大規模な言語モデルの設計と訓練はますます高価になっている。
特筆すべきは、モデリングの意思決定が創発的な能力にどのように影響するかを評価するのが難しいことである。
BLOOM(Big Science Large Open-science Open- Access Multilingual Language Model)の構築プロセスにおいて、私たちのゴールは、アーキテクチャとトレーニングのセットアップを特定し、私たちの1000,000 A100-GPU-hours予算を最大限に活用することにあります。
具体的には,異なるモデリング手法とゼロショット一般化への影響を比較した10億パラメータスケールでのアブレーション研究を行う。
さらに, 各種事前学習コーパスがゼロショット一般化に及ぼす影響について検討した。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
最後に、トランスフォーマーのスケーリング挙動を検討し、ターゲットモデルのサイズ、形状、トレーニング設定を選択する。
すべてのモデルとコードはhttps://huggingface.co/bigscience でオープンソース化されています。
関連論文リスト
- Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文 参考訳(メタデータ) (2024-03-07T16:52:49Z) - Rethinking Optimization and Architecture for Tiny Language Models [39.892066839422796]
モバイルデバイスにおける言語モデルの適用は、計算とメモリコストに大きな課題に直面している。
本研究では,1Bパラメータを持つ小さな言語モデルに基づいて,各成分の効果を分析するための実験的な研究を慎重に設計する。
いくつかの設計公式は、特に小さな言語モデルに有効であることが実証的に証明されている。
論文 参考訳(メタデータ) (2024-02-05T07:59:38Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。