Fugu-MT 論文翻訳(概要): Zyda-2: a 5 Trillion Token High-Quality Dataset

論文の概要: Zyda-2: a 5 Trillion Token High-Quality Dataset

arxiv url: http://arxiv.org/abs/2411.06068v1
Date: Sat, 09 Nov 2024 04:57:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.041121
Title: Zyda-2: a 5 Trillion Token High-Quality Dataset
Title（参考訳）: Zyda-2:5兆ドルの高品質データセット
Authors: Yury Tokpanov, Paolo Glorioso, Quentin Anthony, Beren Millidge,
Abstract要約: Zyda-2は、言語モデル事前トレーニングのための5兆のトークンデータセットである。それはZamba2シリーズのトレーニングに使われ、その重量級は最先端のモデルだった。
参考スコア（独自算出の注目度）: 9.345412850961493
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this technical report, we present Zyda-2: a five trillion token dataset for language model pretraining. Zyda-2 was used to train our Zamba2 series of models which are state-of-the-art for their weight class. We build Zyda-2 by collating high-quality open-source tokens such as FineWeb and DCLM, then distilling them to the highest-quality subset via cross-deduplication and model-based quality filtering. Zyda-2 is released under a permissive open license, and is available at https://huggingface.co/datasets/Zyphra/Zyda-2
Abstract（参考訳）: 本稿では,言語モデル事前学習のための5兆トークンデータセットであるZyda-2を提案する。 Zyda-2はZamba2シリーズのトレーニングに使用された。我々は、FinalWebやDCLMなどの高品質なオープンソーストークンを照合し、クロス複製とモデルベースの品質フィルタリングによって高品質なサブセットに蒸留することで、Zyda-2を構築する。 Zyda-2はパーミッシブなオープンライセンスでリリースされており、https://huggingface.co/datasets/Zyphra/Zyda-2で利用可能である。

関連論文リスト

Iceberg: Enhancing HLS Modeling with Synthetic Data [61.48659845413156]
Icebergは、LLM(Big Language Model)生成プログラムと、目に見えない設計構成の弱いラベルの両方を拡張する合成データ拡張アプローチである。我々の弱いラベル生成方法はコンテキスト内モデルアーキテクチャと統合され、実際のラベルや近親ラベルからのメタラーニングを可能にする。
論文参考訳（メタデータ） (2025-07-14T05:48:09Z)
Qwen2.5 Technical Report [122.13958993185952]
Qwen2.5は多種多様なニーズに対応するように設計された大規模言語モデル(LLM)の包括的シリーズである。以前のイテレーションと比較して、Qwen 2.5はトレーニング前とトレーニング後の両方で大幅に改善されている。オープンウェイト製品には、ベースモデルと命令チューニングモデルが含まれており、量子化されたバージョンが利用可能である。ホスト型ソリューションでは、現在プロプライエタリなモデルには、Qwen2.5-TurboとQwen2.5-Plusの2つの混合型(MoE)が含まれている。
論文参考訳（メタデータ） (2024-12-19T17:56:09Z)
RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (2024-11-19T09:35:28Z)
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。 2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文参考訳（メタデータ） (2024-10-02T22:05:36Z)
Qwen2.5-Coder Technical Report [105.131580912726]
先代のCodeQwen1.5から大幅にアップグレードされたQwen2.5-Coderシリーズを紹介します。コード固有のモデルとして、Qwen2.5-CoderはQwen2.5アーキテクチャに基づいて構築され、5.5兆以上のトークンからなる巨大なコーパスで事前訓練されている。
論文参考訳（メタデータ） (2024-09-18T17:57:57Z)
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.46993852662021]
Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。 Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
論文参考訳（メタデータ） (2024-09-18T16:45:37Z)
Zyda: A 1.3T Dataset for Open Language Modeling [10.973515151563427]
Zydaは1.3兆のトークンからなる寛容なライセンス下でのデータセットで、主要なオープンソースのデータセットを単一の高品質なコーパスに統合することによって組み立てられる。我々の評価によると、ZydaはDolma、FinalWeb、RefinedWebといった他のオープンデータセットと競合するだけでなく、Pythiaスイートの同等モデルの性能を大幅に改善している。
論文参考訳（メタデータ） (2024-06-04T05:47:17Z)
Distributionally Robust Classification on a Data Budget [26.69877485937123]
2.4万の画像サンプル上でのクロスエントロピー損失でトレーニングされた標準ResNet-50は、4億の画像サンプルでトレーニングされたCLIP ResNet-50と同等の堅牢性を達成できることを示す。これは、限られたデータ予算に対して(ほぼ)最先端の分散ロバスト性を示す最初の結果である。
論文参考訳（メタデータ） (2023-08-07T15:30:02Z)
PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文参考訳（メタデータ） (2023-04-24T15:46:26Z)
LAION-5B: An open large-scale dataset for training next generation image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文参考訳（メタデータ） (2022-10-16T00:08:18Z)
CCMB: A Large-scale Chinese Cross-modal Benchmark [46.349966178044184]
我々は、研究コミュニティ向けにCCMBという、大規模で高品質な中国のクロスモーダルベンチマークを構築した。 Zeroには7億5000万のテキスト記述と組み合わせた2億5000万の画像が含まれている。
論文参考訳（メタデータ） (2022-05-08T13:19:23Z)
Ensembling and Knowledge Distilling of Large Sequence Taggers for Grammatical Error Correction [0.0]
大規模構成における最先端トランスフォーマーを用いたエンコーダのアンサンブルに着目し, GEC シーケンスタグアーキテクチャの改善について検討する。私たちの最高のアンサンブルはBEA 2019でF_0.5$スコア76.05という新しいSOTA結果を達成する(テスト)。さらに、訓練アンサンブルを用いて知識蒸留を行い、新しい合成訓練データセット「Troy-Blogs」と「Troy-1BW」を生成する。
論文参考訳（メタデータ） (2022-03-24T13:18:36Z)
Generate, Annotate, and Learn: Generative Models Advance Self-Training and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-11T05:01:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。