Fugu-MT 論文翻訳(概要): The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

論文の概要: The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

arxiv url: http://arxiv.org/abs/2306.01116v1
Date: Thu, 1 Jun 2023 20:03:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 18:03:41.573586
Title: The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
Title（参考訳）: RefinedWeb Dataset for Falcon LLM:WebデータとWebデータのみによるキュレーションコーパスのパフォーマンス向上
Authors: Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay
Abstract要約: 適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。 RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
参考スコア（独自算出の注目度）: 48.498376125522114
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclear how scalable is curation and whether we will run out of unique high-quality data soon. At variance with previous beliefs, we show that properly filtered and deduplicated web data alone can lead to powerful models; even significantly outperforming models from the state-of-the-art trained on The Pile. Despite extensive filtering, the high-quality data we extract from the web is still plentiful, and we are able to obtain five trillion tokens from CommonCrawl. We publicly release an extract of 600 billion tokens from our RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.
Abstract（参考訳）: 大規模な言語モデルは通常、フィルタリングされたWebデータと、ソーシャルメディアの会話、書籍、技術論文などの高品質なコーパスの混合に基づいて訓練される。このキュレーションプロセスは、幅広いゼロショット一般化能力を持つパフォーマンスモデルを作成するために必要であると考えられている。しかしながら,数兆単位のトークンを事前トレーニングする必要のある大規模モデルが検討されているため,キュレーションのスケーラブル性や,間もなくユニークな高品質なデータを使い果たせるかどうかは不明だ。従来の信念と相違して、適切にフィルタリングされ、分離されたWebデータは、強力なモデルに繋がる可能性を示し、さらにThe Pileで訓練された最先端のモデルよりもはるかに優れている。広範囲なフィルタリングにもかかわらず、webから抽出した高品質なデータは依然として豊富であり、commoncrawlから5兆のトークンを得ることができる。 RefinedWebデータセットから600億個のトークンを抽出し、それに基づいてトレーニングされた1.3/7.5Bのパラメータ言語モデルを公開しています。

関連論文リスト

GneissWeb: Preparing High Quality Data for LLMs at Scale [15.596915267015797]
GneissWebは10兆トークンの巨大なデータセットです。 GneissWebはデータ品質と量の間の良好なトレードオフを達成する。我々は、GneissWebデータセットを使用してトレーニングされたモデルが、FineWeb-V1.1.0でトレーニングされたモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2025-02-19T00:14:29Z)
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文参考訳（メタデータ） (2025-01-03T19:00:00Z)
RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (2024-11-19T09:35:28Z)
Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.19939701706869]
我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
論文参考訳（メタデータ） (2024-08-15T08:12:52Z)
The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale [30.955171096569618]
FineWebは96 Common Crawlスナップショットから派生した15トリリオンのトークンデータセットである。 FineWeb-Eduは、FineWebからフィルタリングされた教育用テキストの1.3トリリオントークンコレクションである。
論文参考訳（メタデータ） (2024-06-25T13:50:56Z)
Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文参考訳（メタデータ） (2023-11-28T18:47:03Z)
OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text [32.15651290548974]
OpenWebMathは、Common Crawlの14.7Bトークンを含む作品にインスパイアされたオープンデータセットである。 OpenWebMath上で1.4Bのパラメータ言語モデルをトレーニングし、データセットの14.7Bトークンでトレーニングされたモデルが、20倍以上の汎用言語データでトレーニングされたモデルのパフォーマンスを上回っていることを示す。
論文参考訳（メタデータ） (2023-10-10T16:57:28Z)
WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文参考訳（メタデータ） (2023-08-21T14:40:48Z)
"Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文参考訳（メタデータ） (2023-06-05T21:38:30Z)
Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文参考訳（メタデータ） (2022-10-08T07:27:17Z)
Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文参考訳（メタデータ） (2020-12-14T18:39:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。