Fugu-MT 論文翻訳(概要): The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

論文の概要: The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

arxiv url: http://arxiv.org/abs/2506.05209v1
Date: Thu, 05 Jun 2025 16:21:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.818316
Title: The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text
Title（参考訳）: Common Pile v0.1: パブリックドメインとオープンライセンステキストの8TBデータセット
Authors: Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray,
Abstract要約: オープンライセンスの8テラバイトのテキストコレクションであるCommon Pile v0.1を収集、キュレート、リリースしています。 Common Pileは、研究論文、コード、書籍、百科事典、教育資料、オーディオ書き起こしなど、さまざまな分野にまたがる30のソースからのコンテンツで構成されている。我々は,コモンパイルからテキストで20億のパラメータLSMをトレーニングすることで,我々の努力を検証する。
参考スコア（独自算出の注目度）: 80.96405293220265
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are typically trained on enormous quantities of unlicensed text, a practice that has led to scrutiny due to possible intellectual property infringement and ethical concerns. Training LLMs on openly licensed text presents a first step towards addressing these issues, but prior data collection efforts have yielded datasets too small or low-quality to produce performant LLMs. To address this gap, we collect, curate, and release the Common Pile v0.1, an eight terabyte collection of openly licensed text designed for LLM pretraining. The Common Pile comprises content from 30 sources that span diverse domains including research papers, code, books, encyclopedias, educational materials, audio transcripts, and more. Crucially, we validate our efforts by training two 7 billion parameter LLMs on text from the Common Pile: Comma v0.1-1T and Comma v0.1-2T, trained on 1 and 2 trillion tokens respectively. Both models attain competitive performance to LLMs trained on unlicensed text with similar computational budgets, such as Llama 1 and 2 7B. In addition to releasing the Common Pile v0.1 itself, we also release the code used in its creation as well as the training mixture and checkpoints for the Comma v0.1 models.
Abstract（参考訳）: 大規模言語モデル(LLM)は、典型的には膨大な量のライセンスされていないテキストに基づいて訓練される。オープンライセンスのテキストでLLMをトレーニングすることは、これらの問題に対処するための第一歩となるが、以前のデータ収集の取り組みでは、データセットが小さすぎたり、低品質であったりして、パフォーマンスなLLMを生成することができなかった。このギャップに対処するため、私たちは、LLM事前トレーニング用に設計された8テラバイトのオープンライセンスのテキストコレクションであるCommon Pile v0.1を収集、キュレート、リリースしました。 Common Pileは、研究論文、コード、書籍、百科事典、教育資料、オーディオ書き起こしなど、さまざまな領域にまたがる30のソースからのコンテンツで構成されている。 1兆のトークンと2兆のトークンでそれぞれトレーニングされたコマ v0.1-1T とコマ v0.1-2T のテキストから、70億のパラメータ LLM をトレーニングすることで、我々の取り組みを検証する。どちらのモデルも、Llama 1 や 2 7B のような同様の計算予算でライセンスされていないテキストで訓練された LLM と競合する性能を得た。 Common Pile v0.1自体のリリースに加えて、生成に使用されるコードや、Comma v0.1モデルのトレーニングミックスとチェックポイントもリリースしています。

関連論文リスト

Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training [6.00143998001152]
言語モデル事前学習のための最大のオープンデータセットであるCommon Corpusを紹介する。データセットには、ヨーロッパの主要言語から、事前トレーニングデータセットにはほとんど存在しない低リソース言語まで、さまざまな言語が含まれている。
論文参考訳（メタデータ） (2025-06-02T14:43:15Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
LUME: LLM Unlearning with Multitask Evaluations [106.83812472773522]
Unlearningは、大規模な言語モデル(LLM)から著作権のある、機密性の高い、あるいはプライベートなコンテンツを、完全に再トレーニングすることなく削除することを目的としている。本研究では,(1)未学習の創造的短編小説,(2)機密情報付き未学習の合成バイオグラフィー,(3)公開バイオグラフィーのコレクションの3つのタスクを特徴とするマルチタスク・アンラーニング・ベンチマーク(LUME)を開発した。
論文参考訳（メタデータ） (2025-02-20T23:30:45Z)
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。 Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文参考訳（メタデータ） (2024-08-09T14:43:56Z)
Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文参考訳（メタデータ） (2023-12-31T02:13:18Z)
BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。 GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文参考訳（メタデータ） (2023-10-01T20:46:44Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
Lost in Translation: A Study of Bugs Introduced by Large Language Models while Translating Code [5.915447908295047]
コード翻訳における一般LLMとコードLLMの能力について,大規模な実証的研究を行った。私たちの研究は、3つのベンチマークと2つの実世界のプロジェクトからの1,700のコードサンプルの翻訳に関するものです。 LLMの正しい翻訳は2.1%から47.3%であることがわかった。
論文参考訳（メタデータ） (2023-08-06T13:33:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。