論文の概要: propella-1: Multi-Property Document Annotation for LLM Data Curation at Scale
- arxiv url: http://arxiv.org/abs/2602.12414v2
- Date: Thu, 19 Feb 2026 09:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.182782
- Title: propella-1: Multi-Property Document Annotation for LLM Data Curation at Scale
- Title(参考訳): propella-1: LLM Data Curation at Scaleのためのマルチパフォーマンスドキュメントアノテーション
- Authors: Maximilian Idahl, Benedikt Droste, Björn Plüster, Jan Philipp Harries,
- Abstract要約: シングルスコアは複数の品質次元を膨らませ、フレキシブルなフィルタリングを防止し、解釈性を提供しない。
我々は18のプロパティにまたがる文書を6つのカテゴリにアノテートする小さな多言語LLMのファミリーであるpropella-1を紹介した。
我々は、FinWeb-2、FinPDFs、HPLT 3.0、Nemotron-CCのデータを含む、主要な事前学習コーパスをカバーする30億以上のドキュメントアノテーションのデータセットをリリースする。
- 参考スコア(独自算出の注目度): 0.10888485668490162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since FineWeb-Edu, data curation for LLM pretraining has predominantly relied on single scalar quality scores produced by small classifiers. A single score conflates multiple quality dimensions, prevents flexible filtering, and offers no interpretability. We introduce propella-1, a family of small multilingual LLMs (0.6B, 1.7B, 4B parameters) that annotate text documents across 18 properties organized into six categories: core content, classification, quality and value, audience and purpose, safety and compliance, and geographic relevance. The models support 57 languages and produce structured JSON annotations conforming to a predefined schema. Evaluated against a frontier commercial LLM as a reference annotator, the 4B model achieves higher agreement than much larger general-purpose models. We release propella-annotations, a dataset of over three billion document annotations covering major pretraining corpora including data from FineWeb-2, FinePDFs, HPLT 3.0, and Nemotron-CC. Using these annotations, we present a multi-dimensional compositional analysis of widely used pretraining datasets, revealing substantial differences in quality, reasoning depth, and content composition that single-score approaches cannot capture. All model weights and annotations are released under permissive, commercial-use licenses.
- Abstract(参考訳): FineWeb-Edu以降、LLM事前学習のためのデータキュレーションは、小さな分類器によって生成される単一のスカラー品質スコアに大きく依存している。
シングルスコアは複数の品質次元を膨らませ、フレキシブルなフィルタリングを防止し、解釈性を提供しない。
テキスト文書を18のプロパティにアノテートし,コアコンテンツ,分類,品質と価値,オーディエンスと目的,安全とコンプライアンス,地理的関連性の6つのカテゴリに分類した。
モデルは57言語をサポートし、事前定義されたスキーマに従って構造化されたJSONアノテーションを生成する。
参照アノテータとしてフロンティア商用LCMに対して評価された4Bモデルは、より大きな汎用モデルよりも高いコンセンサスを達成する。
我々は、FineWeb-2、FinPDFs、HPLT 3.0、Nemotron-CCのデータを含む、主要な事前学習コーパスをカバーする30億以上のドキュメントアノテーションのデータセットであるpropella-annotationsをリリースした。
これらのアノテーションを用いて、広く使われている事前学習データセットの多次元構成分析を行い、単一スコアアプローチでは取得できない品質、推論深度、コンテンツ組成の相違を明らかにした。
すべてのモデルウェイトとアノテーションは、寛容で商用用途のライセンスの下でリリースされている。
関連論文リスト
- Large Language Models as Automatic Annotators and Annotation Adjudicators for Fine-Grained Opinion Analysis [3.186130813218338]
この作業では、宣言的なアノテーションパイプラインを使用して、テキスト中の詳細な意見を識別します。
LLM は自動アノテータやアジュディケータとして機能し,個々の LLM ベースのアノテータ間で高いアノテータ間合意を実現する。
これにより、これらの微粒な意見アノテートデータセットを作成するのに必要なコストと人的労力が削減される。
論文 参考訳(メタデータ) (2026-01-23T14:52:56Z) - HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models [25.953042884928006]
約200の言語に対して、オープンで、非常に大きく、高品質で、リッチな注釈付きテキストデータセットを提供するためのイニシアティブを提示します。
30兆のトークンで、これはおそらくLLM事前学習データの多言語収集としては最大である。
57種類のモノリンガルエンコーダ-デコーダモデルと、少数のモノリンガルGPT様参照モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2025-11-02T20:16:38Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。