Fugu-MT 論文翻訳(概要): WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset

論文の概要: WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset

arxiv url: http://arxiv.org/abs/2402.19282v1
Date: Thu, 29 Feb 2024 15:49:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 14:16:01.316863
Title: WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset
Title（参考訳）: WanJuan-CC: 安全で高品質なWebテキストデータセット
Authors: Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Pei Chu, Yuan Qu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Ruiliang Xu, Wei Li, Hang Yan, and Conghui He
Abstract要約: 本稿では,Common Crawlデータから得られた安全で高品質なウェブテキストデータセットであるWanJuan-CCを提案する。包括的なプロセスは、抽出、ルールフィルタリング、ファジィ重複、コンテントセーフティフィルタリング、データ品質フィルタリングを含むCommon Crawlデータを扱うように設計されている。
参考スコア（独自算出の注目度）: 18.218871606115627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data and selected 1.0T Tokens of high-quality data as part of WanJuan-CC. We have open-sourced 300B Tokens from this dataset. The paper also provides statistical information related to data quality, enabling users to select appropriate data according to their needs. To evaluate the quality and utility of the dataset, we trained 1B-parameter and 3B-parameter models using WanJuan-CC and another dataset, RefinedWeb. Results show that WanJuan-CC performs better on validation datasets and downstream tasks.
Abstract（参考訳）: 本稿では,Common Crawlデータから得られた安全で高品質なウェブテキストデータセットであるWanJuan-CCを提案する。この研究は、大量の高品質なデータを必要とする言語モデルのための大規模な事前学習データセットを構築する際の課題に対処する。包括的なプロセスは、抽出、ヒューリスティックルールフィルタリング、ファジィ重複、コンテンツ安全性フィルタリング、データ品質フィルタリングを含むCommon Crawlデータを扱うように設計された。約68億の英文文書から、安全データの222Tトークンを取得し、WanJuan-CCの一部として高品質データの1.0Tトークンを選定した。このデータセットから300B Tokensをオープンソース化しました。この論文はデータ品質に関する統計情報も提供しており、ユーザーは必要に応じて適切なデータを選択することができる。データセットの品質と有用性を評価するため,WanJuan-CCとRefinedWebを用いた1Bパラメータと3Bパラメータモデルをトレーニングした。その結果、wanjuan-ccは検証データセットとダウンストリームタスクでパフォーマンスが向上した。

関連論文リスト

Hierarchical Dataset Selection for High-Quality Data Sharing [6.079330426909266]
本稿では,データセットとグループ(例えば,コレクション,機関)レベルでユーティリティをモデル化するデータセット選択手法を提案する。 DaSHは最先端のデータ選択ベースラインを26.2%精度で上回り、探索手順は大幅に少ない。
論文参考訳（メタデータ） (2025-12-11T18:59:55Z)
Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data [43.539306138403695]
LLMトレーニングにおけるデータの影響を迅速に評価できる効率的な検証戦略を提案する。本稿では,効率的なデータフィルタリングパイプラインを提案し,フィルタ効率を向上し,実験と推論のコストを削減する。フィルタリングパイプラインを、広く使われている2つの事前学習コーパス、FinWebと中国のFinWebデータセットに適用することに成功しました。
論文参考訳（メタデータ） (2025-05-08T17:15:20Z)
A Systematic Review of Open Datasets Used in Text-to-Image (T2I) Gen AI Model Safety [0.0]
テキスト・ツー・イメージ(T2I)生成AIの安全性を目的とした新しい研究は、しばしばトレーニングと評価のために公開されているデータセットに依存している。本稿では,T2I研究で使用される主要なデータセットについて,その収集方法,構成,意味的および統語的多様性,およびデータセットにおける害タイプの品質,カバレッジ,分布について概説する。
論文参考訳（メタデータ） (2025-02-23T00:59:04Z)
WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文参考訳（メタデータ） (2025-01-24T14:06:29Z)
ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information [29.57708536491853]
大規模かつ高品質な中国語データセットを多次元かつきめ細かい情報で構築するための新しいツールチェーン MDFG-tool を提案する。我々は,3.8TBの漢文テキスト2.0を公開し,各テキストは品質スコア,ドメインラベル,毒性ラベル,毒性スコアに関連付けられている。
論文参考訳（メタデータ） (2024-11-29T12:48:49Z)
RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (2024-11-19T09:35:28Z)
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。 Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文参考訳（メタデータ） (2024-10-07T17:59:58Z)
TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文参考訳（メタデータ） (2024-07-21T17:59:20Z)
Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation [9.497148303350697]
本稿では,LCMに基づくデータアノテーションの適用を拡大し,既存のデータセットの品質を向上させるケーススタディを提案する。具体的には、連鎖や多数決のようなアプローチを利用して、人間のアノテーションを模倣し、Multi-Newsデータセットから無関係な文書を分類する。
論文参考訳（メタデータ） (2024-04-15T11:36:10Z)
DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文参考訳（メタデータ） (2024-01-23T17:22:00Z)
ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with Effective Evaluation Model [40.23569361268597]
ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。我々は,最大かつ最新の高品質な中国語Webテキストである ChineseWebText をリリースし,その内容は1.42TB で,各テキストは品質スコアに関連付けられている。
論文参考訳（メタデータ） (2023-11-02T11:13:51Z)
QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文参考訳（メタデータ） (2023-07-07T07:06:38Z)
Assessing Dataset Quality Through Decision Tree Characteristics in Autoencoder-Processed Spaces [0.30458514384586394]
データセットの品質がモデルトレーニングとパフォーマンスに深く影響していることを示します。以上の結果から,適切な特徴選択,適切なデータボリューム,データ品質の重要性が浮き彫りになった。この研究は、データアセスメントのプラクティスに関する貴重な洞察を提供し、より正確で堅牢な機械学習モデルの開発に寄与する。
論文参考訳（メタデータ） (2023-06-27T11:33:31Z)
A Data-centric Framework for Improving Domain-specific Machine Reading Comprehension Datasets [5.673449249014538]
低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。
論文参考訳（メタデータ） (2023-04-02T08:26:38Z)
Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。 PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文参考訳（メタデータ） (2022-04-19T15:45:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。