Fugu-MT 論文翻訳(概要): CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

論文の概要: CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

arxiv url: http://arxiv.org/abs/2410.18505v1
Date: Thu, 24 Oct 2024 07:50:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.806618
Title: CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models
Title（参考訳）: CCI3.0-HQ: 大規模言語モデルの事前学習用に設計された高品質の中国語データセット
Authors: Liangdong Wang, Bo-Wen Zhang, Chengwei Wu, Hanyu Zhao, Xiaofeng Shi, Shuhao Gu, Jijie Li, Quanyue Ma, TengFei Pan, Guang Liu,
Abstract要約: CCI3.0-HQは、中国企業インターネット 3.0(CCI3.0)の高品質500GBサブセットであり、新しい2段階ハイブリッドフィルタリングパイプラインを用いて開発されている。我々は、さまざまなデータセットにまたがる100Bトークンのスクラッチから0.5Bパラメータモデルをトレーニングし、ゼロショット設定で10のベンチマークで優れたパフォーマンスを実現した。
参考スコア（独自算出の注目度）: 11.289402938630207
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.
Abstract（参考訳）: CCI3.0-HQ(https://huggingface.co/datasets/BAAI/CCI3-HQ)は、中国コーパスインターネット 3.0(CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data)の高品質500GBサブセットであり、データ品質を大幅に向上させる新しい2段階ハイブリッドフィルタリングパイプラインを用いて開発されている。 CCI3.0, SkyPile, WanjuanV1に比べて, ゼロショット設定で10のベンチマークで優れた性能を示した。高品質なフィルタリングプロセスはQwen2-72Bインストラクトモデルの能力を0.5Bモデルに効果的に蒸留し、中国のWebデータ分類に最適なF1スコアを得る。このオープンアクセスデータセットは、高品質な言語モデルへの広範なアクセスを促進するだろうと考えています。

関連論文リスト

On Representation Redundancy in Large-Scale Instruction Tuning Data Selection [20.850719141827664]
意味表現類似性のレンズによる命令調整データ選択について検討する。圧縮表現データ選択(CRDS, Compressed Representation Data Selection)は2種類の新しいフレームワークである。実験により、両変種はデータ品質を大幅に向上し、最先端の表現ベース選択法を一貫して上回っていることが示された。
論文参考訳（メタデータ） (2026-02-14T13:35:34Z)
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages [61.28284565925745]
提案するHelpSteer3-Preferenceは,4万以上のサンプルからなる高品質な人手による選好データセットである。 HelpSteer3-Preference を用いて、RM-Bench (82.4%) と JudgeBench (73.7%) で最高性能を達成するリワードモデル (RM) を訓練する。これは、既存のRMから報告された結果よりも大幅に改善(10%絶対)したことを意味する。
論文参考訳（メタデータ） (2025-05-16T17:31:19Z)
Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。審査員モデルの応答を正確に評価するために、外部ツールが導入される。合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文参考訳（メタデータ） (2025-04-27T15:21:59Z)
Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models [7.61977883644433]
我々はPRRCを提案し、プロフェッショナル主義、可読性、推論、クリーンラインにまたがるデータ品質を評価する。学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、100Bトークンでトレーニングされた3.3Bモデルにおいて、ダウンストリームタスクのパフォーマンスを3.23倍改善することを示した。
論文参考訳（メタデータ） (2025-04-19T06:12:33Z)
CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。 ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文参考訳（メタデータ） (2025-04-17T17:58:13Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (2024-11-19T09:35:28Z)
Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.19939701706869]
我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
論文参考訳（メタデータ） (2024-08-15T08:12:52Z)
Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-26T13:55:21Z)
Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation [22.467879240959686]
品質、コスト、時間、データのプライバシなど、いくつかのパフォーマンス基準で、プログラミングフィードバック生成のための言語モデルをベンチマークします。我々は,GPT-4生成合成データに基づく微調整パイプラインを開発した。 WebLLMのブラウザ内推論エンジンを用いた微調整Llama3-8BとPhi3-3.8B 4ビット量子化モデルの有効性を示す。
論文参考訳（メタデータ） (2024-06-07T16:22:51Z)
Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文参考訳（メタデータ） (2024-03-07T16:52:49Z)
Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)
Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。 77～958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文参考訳（メタデータ） (2022-11-02T17:47:23Z)
ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-25T11:38:48Z)
Exploiting the Potential of Datasets: A Data-Centric Approach for Model Robustness [48.70325679650579]
本稿では,既存のディープニューラルネットワークの多くに有効であるデータセット拡張のための新しいアルゴリズムを提案する。 Alibaba GroupとTsinghua Universityが主催するデータ中心の堅牢な学習コンペで、私たちのアルゴリズムは3000以上の競合企業から3位に入った。
論文参考訳（メタデータ） (2022-03-10T12:16:32Z)
Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning [18.932100477957462]
GPT-3のような最近の研究は、多くの自然言語処理(NLP)タスクにおけるZero-ShotとFew-Shot学習の優れた性能を示している。本稿では,大規模分散トレーニング性能をモデルアーキテクチャ設計に組み込む手法を提案する。
論文参考訳（メタデータ） (2021-10-10T07:40:22Z)
Generative Multi-Stream Architecture For American Sign Language Recognition [15.717424753251674]
複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
論文参考訳（メタデータ） (2020-03-09T21:04:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。