論文の概要: GPT-NL Public Corpus: A Permissively Licensed, Dutch-First Dataset for LLM Pre-training
- arxiv url: http://arxiv.org/abs/2604.00920v1
- Date: Wed, 01 Apr 2026 14:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.022377
- Title: GPT-NL Public Corpus: A Permissively Licensed, Dutch-First Dataset for LLM Pre-training
- Title(参考訳): GPT-NL Public Corpus: LLM事前トレーニングのための許容ライセンス付きオランダ初のデータセット
- Authors: Jesse van Oort, Frank Brinkkemper, Erik de Graaf, Bram Vanroy, Saskia Lensink,
- Abstract要約: GPT-NL Public Corpusはオランダ語資源の最大ライセンス企業である。
GPT-NL Public Corpusには21のオランダ専用コレクションがあり、合計で36Bのオランダのトークンが前処理されている。
- 参考スコア(独自算出の注目度): 0.3262230127283452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the GPT-NL Public Corpus, the biggest permissively licensed corpus of Dutch language resources. The GPT-NL Public Corpus contains 21 Dutch-only collections totalling 36B preprocessed Dutch tokens not present in any other LLM pretraining corpus. Additionally, the corpus includes roughly 207B English, 232B Code, and 48B German/Danish tokens taken from existing sets which we further curated for compliance. This corpus includes curated data from large existing corpora like Common Corpus and Common Crawl, as well as newly created Dutch-specific collections. Most newly created Dutch collections consist of content collected in collaboration with organisations or synthetically augmented content. All data is collected and evaluated with the aim of facilitating the creation of (commercial) language models that are lawful, useful and non-harmful. All data included in the GPT-NL Public Corpus is sourced from datasets with permissive licensing and is curated and redistributed under a CC-BY license. The full dataset is publicly available on the Hugging Face Hub.
- Abstract(参考訳): GPT-NL Public Corpusはオランダ語資源の最大ライセンスコーパスである。
GPT-NL Public Corpusは、オランダのみの21のコレクションと、他のLLM事前訓練コーパスに存在しない36Bの事前処理されたオランダトークンを含んでいる。
さらに、コーパスには、約207Bの英語、232Bのコード、および既存のセットから取り出された48Bのドイツ/デンマークのトークンが含まれており、コンプライアンスのためにさらにキュレーションされている。
このコーパスには、Common CorpusやCommon Crawlのような既存の大規模コーパスのキュレートされたデータと、新しく作成されたオランダ固有のコレクションが含まれている。
新しく作られたオランダのコレクションのほとんどは、組織や人工的に拡張されたコンテンツと協調して集められたコンテンツで構成されている。
すべてのデータは、合法的で、有用で、害のない(商業的な)言語モデルの作成を促進する目的で収集され、評価される。
GPT-NL Public Corpusに含まれるすべてのデータは、寛容なライセンスを持つデータセットからソースされ、CC-BYライセンスの下でキュレーションされ、再配布される。
完全なデータセットはHugging Face Hubで公開されている。
関連論文リスト
- The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models [41.865590656976316]
ドイツ・コモンズ(ドイツ語: German Commons)は、ドイツで公にライセンスされたテキストのコレクションである。
41のソースから7つのドメインにまたがるデータをコンパイルし、法律、科学、文化、政治、ニュース、経済、ウェブテキストを含む。
論文 参考訳(メタデータ) (2025-10-15T18:24:26Z) - The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text [80.96405293220265]
オープンライセンスの8テラバイトのテキストコレクションであるCommon Pile v0.1を収集、キュレート、リリースしています。
Common Pileは、研究論文、コード、書籍、百科事典、教育資料、オーディオ書き起こしなど、さまざまな分野にまたがる30のソースからのコンテンツで構成されている。
我々は,コモンパイルからテキストで20億のパラメータLSMをトレーニングすることで,我々の努力を検証する。
論文 参考訳(メタデータ) (2025-06-05T16:21:30Z) - Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training [6.00143998001152]
言語モデル事前学習のための最大のオープンデータセットであるCommon Corpusを紹介する。
データセットには、ヨーロッパの主要言語から、事前トレーニングデータセットにはほとんど存在しない低リソース言語まで、さまざまな言語が含まれている。
論文 参考訳(メタデータ) (2025-06-02T14:43:15Z) - GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。
我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文 参考訳(メタデータ) (2024-10-31T11:14:12Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - esCorpius: A Massive Spanish Crawling Corpus [2.262838186547612]
esCorpiusはスペインのクロールコーパスで、Common Crawlデータの約1Pbから得られた。
スペイン語で最も広範なコーパスであり、ウェブテキストの内容の抽出、浄化、重複の程度である。
論文 参考訳(メタデータ) (2022-06-30T09:29:18Z) - Multilingual Open Text 1.0: Public Domain News in 44 Languages [2.642698101441705]
コーパスの最初のリリースには270万以上のニュース記事と、2001年から2021年にかけて発行された100万の短い記事が含まれている。
ソース資料はパブリックドメインにあり、私たちのコレクションはクリエイティブコモンズライセンス(CC BY 4.0)を使用してライセンスされており、コーパスを作成するために使用されるソフトウェアはすべてMITライセンスの下でリリースされています。
論文 参考訳(メタデータ) (2022-01-14T18:58:17Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。