論文の概要: Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$
- arxiv url: http://arxiv.org/abs/2203.17189v1
- Date: Thu, 31 Mar 2022 17:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 13:53:30.437367
- Title: Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$
- Title(参考訳): モデルとデータを$\texttt{t5x}$と$\texttt{seqio}$でスケールアップする
- Authors: Adam Roberts, Hyung Won Chung, Anselm Levskaya, Gaurav Mishra, James
Bradbury, Daniel Andor, Sharan Narang, Brian Lester, Colin Gaffney, Afroz
Mohiuddin, Curtis Hawthorne, Aitor Lewkowycz, Alex Salcianu, Marc van Zee,
Jacob Austin, Sebastian Goodman, Livio Baldini Soares, Haitang Hu, Sasha
Tsvyashchenko, Aakanksha Chowdhery, Jasmijn Bastings, Jannis Bulian, Xavier
Garcia, Jianmo Ni, Andrew Chen, Kathleen Kenealy, Jonathan H. Clark, Stephan
Lee, Dan Garrette, James Lee-Thorp, Colin Raffel, Noam Shazeer, Marvin
Ritter, Maarten Bosma, Alexandre Passos, Jeremy Maitin-Shepard, Noah Fiedel,
Mark Omernick, Brennan Saeta, Ryan Sepassi, Alexander Spiridonov, Joshua
Newlan, Andrea Gesmundo
- Abstract要約: $texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
- 参考スコア(独自算出の注目度): 118.04625413322827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent neural network-based language models have benefited greatly from
scaling up the size of training datasets and the number of parameters in the
models themselves. Scaling can be complicated due to various factors including
the need to distribute computation on supercomputer clusters (e.g., TPUs),
prevent bottlenecks when infeeding data, and ensure reproducible results. In
this work, we present two software libraries that ease these issues:
$\texttt{t5x}$ simplifies the process of building and training large language
models at scale while maintaining ease of use, and $\texttt{seqio}$ provides a
task-based API for simple creation of fast and reproducible training data and
evaluation pipelines. These open-source libraries have been used to train
models with hundreds of billions of parameters on datasets with multiple
terabytes of training data.
Along with the libraries, we release configurations and instructions for
T5-like encoder-decoder models as well as GPT-like decoder-only architectures.
$\texttt{t5x}$ and $\texttt{seqio}$ are open source and available at
https://github.com/google-research/t5x and https://github.com/google/seqio,
respectively.
- Abstract(参考訳): 最近のニューラルネットワークベースの言語モデルは、トレーニングデータセットのサイズとモデル自体のパラメータの数をスケールアップすることで大きな恩恵を受けています。
スケーリングは、スーパーコンピュータクラスタ(例えば、tpus)に計算を分散する必要があることや、データ提供時のボトルネックの防止、再現可能な結果の確保など、さまざまな要因によって複雑になる可能性がある。
この作業では、これらの問題を緩和する2つのソフトウェアライブラリを提示します。$\texttt{t5x}$は、使用の容易さを維持しながら、大規模に大規模な言語モデルを構築およびトレーニングするプロセスを単純化し、$\texttt{seqio}$は、高速で再現可能なトレーニングデータと評価パイプラインを簡単に作成するためのタスクベースのAPIを提供します。
これらのオープンソースライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
ライブラリとともに、GPTライクなデコーダのみのアーキテクチャと同様に、T5ライクなエンコーダ-デコーダモデルの構成と命令をリリースする。
$\texttt{t5x}$と$\texttt{seqio}$はオープンソースで、https://github.com/google-research/t5xとhttps://github.com/google/seqioで利用可能である。
関連論文リスト
- $\texttt{dattri}$: A Library for Efficient Data Attribution [7.803566162554017]
データ属性法は、個々のトレーニングサンプルが人工知能(AI)モデルの予測に与える影響を定量化することを目的としている。
新たなデータ属性メソッドが開発されているにもかかわらず、さまざまなデータ属性メソッドの開発、ベンチマーク、デプロイを容易にする包括的なライブラリが欠如している。
本稿では、上記のニーズに対処するオープンソースのデータ属性ライブラリである、$textttdattri$を紹介します。
論文 参考訳(メタデータ) (2024-10-06T17:18:09Z) - Generating QM1B with PySCF$_{\text{IPU}}$ [40.29005019051567]
本稿では,インテリジェンス処理ユニット(IPU)を用いたデータジェネレータPySCF$_textIPU$を紹介する。
これにより、9-11重原子を含む10億のトレーニング例でデータセットのQM1Bを作成することができます。
QM1Bのいくつかの制限を強調し、DFTオプションの低解像度を強調します。
論文 参考訳(メタデータ) (2023-11-02T10:31:20Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Torch-Choice: A PyTorch Package for Large-Scale Choice Modelling with
Python [11.566791864440262]
$texttttorch-choice$はPythonとPyTorchを使ったフレキシブルで高速な選択モデリングのためのオープンソースライブラリである。
$textttChoiceDataset$は、データベースを柔軟かつメモリ効率よく管理するための、$textttChoiceDataset$データ構造を提供します。
論文 参考訳(メタデータ) (2023-04-04T16:00:48Z) - Chunk-based Nearest Neighbor Machine Translation [7.747003493657217]
我々は、単一のトークンではなく、データストアからトークンの塊を検索する、テクスチャンクベースの$k$NN-MTモデルを導入する。
静的ドメイン適応とオンザフライ適応という2つの設定による機械翻訳の実験は、チャンクベースのモデルが、翻訳品質をわずかに低下させるだけで、大幅なスピードアップ(最大4倍)につながることを示している。
論文 参考訳(メタデータ) (2022-05-24T17:39:25Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Deduplicating Training Data Makes Language Models Better [50.22588162039083]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。
これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。
トレーニングデータセットを分離する2つのツールを開発しています。
論文 参考訳(メタデータ) (2021-07-14T06:06:52Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - HetSeq: Distributed GPU Training on Heterogeneous Infrastructure [13.689451154861203]
HetSeqは、異種インフラストラクチャ上で大規模なニューラルネットワークモデルをトレーニングする機能を提供するソフトウェアパッケージである。
変換器変換とBERT言語モデルによる実験により、HetSeqは異種システム上でスケール可能であることが示された。
論文 参考訳(メタデータ) (2020-09-25T19:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。