論文の概要: The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
- arxiv url: http://arxiv.org/abs/2510.13996v1
- Date: Wed, 15 Oct 2025 18:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.579031
- Title: The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
- Title(参考訳): ドイツ・コモンズ - ドイツ語モデルのためのオープンライセンステキスト154億ウォン
- Authors: Lukas Gienapp, Christopher Schröder, Stefan Schweter, Christopher Akiki, Ferdinand Schlatt, Arden Zimmermann, Phillipe Genêt, Martin Potthast,
- Abstract要約: ドイツ・コモンズ(ドイツ語: German Commons)は、ドイツで公にライセンスされたテキストのコレクションである。
41のソースから7つのドメインにまたがるデータをコンパイルし、法律、科学、文化、政治、ニュース、経済、ウェブテキストを含む。
- 参考スコア(独自算出の注目度): 41.865590656976316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model development relies on large-scale training corpora, yet most contain data of unclear licensing status, limiting the development of truly open models. This problem is exacerbated for non-English languages, where openly licensed text remains critically scarce. We introduce the German Commons, the largest collection of openly licensed German text to date. It compiles data from 41 sources across seven domains, encompassing legal, scientific, cultural, political, news, economic, and web text. Through systematic sourcing from established data providers with verifiable licensing, it yields 154.56 billion tokens of high-quality text for language model training. Our processing pipeline implements comprehensive quality filtering, deduplication, and text formatting fixes, ensuring consistent quality across heterogeneous text sources. All domain subsets feature licenses of at least CC-BY-SA 4.0 or equivalent, ensuring legal compliance for model training and redistribution. The German Commons therefore addresses the critical gap in openly licensed German pretraining data, and enables the development of truly open German language models. We also release code for corpus construction and data filtering tailored to German language text, rendering the German Commons fully reproducible and extensible.
- Abstract(参考訳): 大規模な言語モデルの開発は大規模なトレーニングコーパスに依存しているが、ほとんどはライセンス状態が不明なデータを含んでおり、真のオープンモデルの開発を制限している。
この問題は、オープンライセンスのテキストが批判的に不足している非英語言語において悪化している。
ドイツ・コモンズ(ドイツ語: German Commons)は、ドイツで公にライセンスされたテキストの最大のコレクションである。
41のソースから7つのドメインにまたがるデータをコンパイルし、法律、科学、文化、政治、ニュース、経済、ウェブテキストを含む。
検証可能なライセンスを持つ確立したデータプロバイダからの体系的なソーシングによって、言語モデルトレーニングのための高品質なテキストのトークンが1560億個獲得される。
我々の処理パイプラインは、包括的な品質フィルタリング、復号化、テキストフォーマット修正を実装し、異種テキストソース間の一貫した品質を保証する。
全てのドメインサブセットは、少なくともCC-BY-SA 4.0または同等のライセンスを持ち、モデルのトレーニングと再配布に対する法的コンプライアンスを保証する。
したがって、ドイツコモンズは、オープンにライセンスされたドイツの事前訓練データの重大なギャップに対処し、真にオープンなドイツの言語モデルの開発を可能にする。
我々はまた、ドイツ語のテキストに合わせたコーパス構築とデータフィルタリングのためのコードをリリースし、ジャーマン・コモンズを完全に再現可能で拡張可能とした。
関連論文リスト
- Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.70368742538187]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。
Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。
Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (2025-09-17T17:59:21Z) - Multilingual Language Model Pretraining using Machine-translated Data [33.373858866989536]
高品質なWebデータセットであるFineWeb-Eduを9言語に翻訳する。
TransWebLLMは、クローズドデータを用いて訓練された最先端の多言語モデルに適合し、性能が向上することを示す。
論文 参考訳(メタデータ) (2025-02-18T19:27:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - MultiLegalPile: A 689GB Multilingual Legal Corpus [20.492525119942677]
我々は17の管轄区域から24の言語で689GBのコーパスであるMultiLegalPileをリリースした。
2つのRoBERTaモデルと1つのLongformerモデルを多言語で事前学習し、各言語固有のサブセット上で24の単言語モデルを作成し、LEXTREMEで評価する。
我々の多言語モデルは、LEXTREME上の新しいSotAとLexGLUE上の英語モデルを設定した。
論文 参考訳(メタデータ) (2023-06-03T10:10:38Z) - MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset [0.0]
文境界検出(SBD)は自然言語処理の基礎的構成要素の一つである。
我々は6言語で130万以上の注釈文からなる多言語法的データセットをキュレートした。
CRF, BiLSTM-CRF, トランスフォーマーに基づく単言語モデルと多言語モデルの訓練, 試験を行い, 最先端性能を実証した。
論文 参考訳(メタデータ) (2023-05-02T05:52:03Z) - CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。
これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文 参考訳(メタデータ) (2020-07-20T17:53:35Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。