論文の概要: Zyda-2: a 5 Trillion Token High-Quality Dataset
- arxiv url: http://arxiv.org/abs/2411.06068v1
- Date: Sat, 09 Nov 2024 04:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:22.050925
- Title: Zyda-2: a 5 Trillion Token High-Quality Dataset
- Title(参考訳): Zyda-2:5兆ドルの高品質データセット
- Authors: Yury Tokpanov, Paolo Glorioso, Quentin Anthony, Beren Millidge,
- Abstract要約: Zyda-2は、言語モデル事前トレーニングのための5兆のトークンデータセットである。
それはZamba2シリーズのトレーニングに使われ、その重量級は最先端のモデルだった。
- 参考スコア(独自算出の注目度): 9.345412850961493
- License:
- Abstract: In this technical report, we present Zyda-2: a five trillion token dataset for language model pretraining. Zyda-2 was used to train our Zamba2 series of models which are state-of-the-art for their weight class. We build Zyda-2 by collating high-quality open-source tokens such as FineWeb and DCLM, then distilling them to the highest-quality subset via cross-deduplication and model-based quality filtering. Zyda-2 is released under a permissive open license, and is available at https://huggingface.co/datasets/Zyphra/Zyda-2
- Abstract(参考訳): 本稿では,言語モデル事前学習のための5兆トークンデータセットであるZyda-2を提案する。
Zyda-2はZamba2シリーズのトレーニングに使用された。
我々は、FinalWebやDCLMなどの高品質なオープンソーストークンを照合し、クロス複製とモデルベースの品質フィルタリングによって高品質なサブセットに蒸留することで、Zyda-2を構築する。
Zyda-2はパーミッシブなオープンライセンスでリリースされており、https://huggingface.co/datasets/Zyphra/Zyda-2で利用可能である。
関連論文リスト
- RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Qwen2.5-Coder Technical Report [105.131580912726]
先代のCodeQwen1.5から大幅にアップグレードされたQwen2.5-Coderシリーズを紹介します。
コード固有のモデルとして、Qwen2.5-CoderはQwen2.5アーキテクチャに基づいて構築され、5.5兆以上のトークンからなる巨大なコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2024-09-18T17:57:57Z) - Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.46993852662021]
Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。
Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
論文 参考訳(メタデータ) (2024-09-18T16:45:37Z) - Zyda: A 1.3T Dataset for Open Language Modeling [10.973515151563427]
Zydaは1.3兆のトークンからなる寛容なライセンス下でのデータセットで、主要なオープンソースのデータセットを単一の高品質なコーパスに統合することによって組み立てられる。
我々の評価によると、ZydaはDolma、FinalWeb、RefinedWebといった他のオープンデータセットと競合するだけでなく、Pythiaスイートの同等モデルの性能を大幅に改善している。
論文 参考訳(メタデータ) (2024-06-04T05:47:17Z) - Distributionally Robust Classification on a Data Budget [26.69877485937123]
2.4万の画像サンプル上でのクロスエントロピー損失でトレーニングされた標準ResNet-50は、4億の画像サンプルでトレーニングされたCLIP ResNet-50と同等の堅牢性を達成できることを示す。
これは、限られたデータ予算に対して(ほぼ)最先端の分散ロバスト性を示す最初の結果である。
論文 参考訳(メタデータ) (2023-08-07T15:30:02Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - CCMB: A Large-scale Chinese Cross-modal Benchmark [46.349966178044184]
我々は、研究コミュニティ向けにCCMBという、大規模で高品質な中国のクロスモーダルベンチマークを構築した。
Zeroには7億5000万のテキスト記述と組み合わせた2億5000万の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-08T13:19:23Z) - Ensembling and Knowledge Distilling of Large Sequence Taggers for
Grammatical Error Correction [0.0]
大規模構成における最先端トランスフォーマーを用いたエンコーダのアンサンブルに着目し, GEC シーケンスタグアーキテクチャの改善について検討する。
私たちの最高のアンサンブルはBEA 2019でF_0.5$スコア76.05という新しいSOTA結果を達成する(テスト)。
さらに、訓練アンサンブルを用いて知識蒸留を行い、新しい合成訓練データセット「Troy-Blogs」と「Troy-1BW」を生成する。
論文 参考訳(メタデータ) (2022-03-24T13:18:36Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。