論文の概要: Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability
- arxiv url: http://arxiv.org/abs/2506.08300v1
- Date: Tue, 10 Jun 2025 00:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.952781
- Title: Institutional Books 1.0: A 242B token dataset from Harvard Library's collections, refined for accuracy and usability
- Title(参考訳): Institutional Books 1.0:Harvard Libraryのコレクションからの242Bトークンデータセット。
- Authors: Matteo Cargnelutti, Catherine Brobston, John Hess, Jack Cushman, Kristi Mukk, Aristana Scourtas, Kyle Courtney, Greg Leppert, Amanda Watson, Martha Whitehead, Jonathan Zittrain,
- Abstract要約: Institutional Books 1.0は、2006年からHarvard LibraryのGoogle Booksプロジェクトへの参加を通じてデジタル化されたパブリックドメインブックのコレクションである。
ハーバード図書館で作業し、これらの論文を抽出し、分析し、処理し、歴史文書の広範囲に記録されたデータセットにしました。
この分析は、当初250以上の異なる言語で書かれた1,075,899巻に及ぶ、約250億個のトークンをスキャンしたハーバード図書館のコレクション全体をカバーしている。
- 参考スコア(独自算出の注目度): 1.3281177137699656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) use data to learn about the world in order to produce meaningful correlations and predictions. As such, the nature, scale, quality, and diversity of the datasets used to train these models, or to support their work at inference time, have a direct impact on their quality. The rapid development and adoption of LLMs of varying quality has brought into focus the scarcity of publicly available, high-quality training data and revealed an urgent need to ground the stewardship of these datasets in sustainable practices with clear provenance chains. To that end, this technical report introduces Institutional Books 1.0, a large collection of public domain books originally digitized through Harvard Library's participation in the Google Books project, beginning in 2006. Working with Harvard Library, we extracted, analyzed, and processed these volumes into an extensively-documented dataset of historic texts. This analysis covers the entirety of Harvard Library's collection scanned as part of that project, originally spanning 1,075,899 volumes written in over 250 different languages for a total of approximately 250 billion tokens. As part of this initial release, the OCR-extracted text (original and post-processed) as well as the metadata (bibliographic, source, and generated) of the 983,004 volumes, or 242B tokens, identified as being in the public domain have been made available. This report describes this project's goals and methods as well as the results of the analyses we performed, all in service of making this historical collection more accessible and easier for humans and machines alike to filter, read and use.
- Abstract(参考訳): 大規模言語モデル(LLM)は、意味のある相関関係と予測を生成するために、世界について学ぶためにデータを使用する。
このように、これらのモデルをトレーニングしたり、推論時に作業をサポートするために使用されるデータセットの性質、スケール、品質、多様性は、彼らの品質に直接的な影響を与える。
様々な品質のLCMの急速な開発と導入により、公開可能な高品質なトレーニングデータの不足に焦点が当てられ、これらのデータセットのスチュワードシップを、明確な前兆連鎖を持つ持続可能なプラクティスに根ざすことが急務であることが明らかになった。
そのためにこの技術レポートでは、2006年に開始されたHarvard LibraryのGoogle Booksプロジェクトへの参加を通じてデジタル化されたパブリックドメインブックの大規模なコレクションであるInstitutional Books 1.0を紹介している。
ハーバード図書館で作業し、これらの論文を抽出し、分析し、処理し、歴史文書の広範囲に記録されたデータセットにしました。
この分析は、当初250以上の異なる言語で書かれた1,075,899巻に及ぶ、約250億個のトークンをスキャンしたハーバード図書館のコレクション全体をカバーしている。
この最初のリリースの一部として、OCRが抽出したテキスト(原文および後処理)と983,004巻のメタデータ(書誌、ソース、生成)、またはパブリックドメインにあると特定された242Bトークンが利用可能になった。
本報告では,本プロジェクトの目標と方法,および実施した分析結果について述べる。
関連論文リスト
- Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training [6.00143998001152]
言語モデル事前学習のための最大のオープンデータセットであるCommon Corpusを紹介する。
データセットには、ヨーロッパの主要言語から、事前トレーニングデータセットにはほとんど存在しない低リソース言語まで、さまざまな言語が含まれている。
論文 参考訳(メタデータ) (2025-06-02T14:43:15Z) - Is This Collection Worth My LLM's Time? Automatically Measuring Information Potential in Text Corpora [2.3251886193174114]
モデルトレーニングや微調整を必要とせずに,テキストコレクションから得られる潜在的な情報を評価する自動パイプラインを提案する。
提案手法はテキストから複数の選択質問(MCQ)を生成し,LLMの性能を原材料へのアクセスの有無に関わらず測定する。
戦略的に選択された5つのデータセット、EPFLのPhD原稿、個人の記録コレクション、関連するトピックに関するウィキペディア記事の2セット、および合成ベースラインデータセットを用いてアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-19T13:03:06Z) - Insights from Publishing Open Data in Industry-Academia Collaboration [3.458783333044753]
本稿では,オープンデータセットの公開から学んだモチベーションと教訓について考察する。
13のデータセットを公開している欧州の研究プロジェクトの参加者を調査した。
データ収集の計画が不可欠であること、そして再利用を改善するためのスクリプトに付随するデータセットはごくわずかであることがわかった。
論文 参考訳(メタデータ) (2025-01-24T07:30:46Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。