論文の概要: Croissant Baker: Metadata Generation for Discoverable, Governable, and Reusable ML Datasets
- arxiv url: http://arxiv.org/abs/2605.15079v1
- Date: Thu, 14 May 2026 17:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.965389
- Title: Croissant Baker: Metadata Generation for Discoverable, Governable, and Reusable ML Datasets
- Title(参考訳): Croissant Baker: 発見可能、統治可能、再利用可能なMLデータセットのためのメタデータ生成
- Authors: Rafi Al Attrach, Rajna Fani, Sebastian Lobentanzer, Joan Giner-Miguelez, Debanshu Das, Varuni H. K., Nobin Sarwar, Rajat Ghosh, Anwai Archit, Surbhi Motghare, Christina Conrad Parry, Luis Oala, Lara Grosso, Joaquin Vanschoren, Steffen Vogler, Sujata Goswami, Eric S. Rosenthal, Marzyeh Ghassemi, Matthew McDermott, Tom Pollard,
- Abstract要約: Croissantは、機械学習データセットのメタデータ標準である。
NeurIPSは現在、データセットトラックへのすべてのサブミッションでCroissantメタデータを必要としている。
我々は、データセットディレクトリから直接検証済みのCroissantメタデータを生成するローカルファーストのオープンソースのコマンドラインツールであるCroissant Bakerをリリースした。
- 参考スコア(独自算出の注目度): 14.961145883277696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Croissant has emerged as the metadata standard for machine learning datasets, providing a structured, JSON-LD-based format that makes dataset discovery, automated ingestion, and reproducible analysis machine-checkable across ML platforms. Adoption has accelerated, and NeurIPS now requires Croissant metadata in every submission to its dataset tracks. Yet in practice Croissant generation usually starts with uploading data to a public platform, a path infeasible for governed and large local repositories that hold much of the high-value data ML increasingly relies on. We release Croissant Baker, a local-first, open-source command-line tool that generates validated Croissant metadata directly from a dataset directory through a modular handler registry. We evaluate Croissant Baker on over 140 datasets, scaling to MIMIC-IV at 886 million rows and 374 Parquet files. On held-out comparisons against producer-authored or standards-derived ground truth, Croissant Baker reaches 97-100% agreement across multiple domains.
- Abstract(参考訳): Croissantは、機械学習データセットのメタデータ標準として登場し、データセットの検出、自動取り込み、MLプラットフォーム間で再現可能な分析マシンチェックを可能にする、構造化されたJSON-LDベースのフォーマットを提供する。
採用が加速し、NeurIPSはデータセットトラックへの提出毎にCroissantメタデータを必要とするようになった。
しかし実際には、Croissant生成は通常、公開プラットフォームにデータをアップロードすることから始まる。
ローカルファーストでオープンソースのコマンドラインツールであるCroissant Bakerをリリースし、モジュール型のハンドラレジストリを通じてデータセットディレクトリから直接、検証済みのCroissantメタデータを生成する。
140以上のデータセットでCroissant Bakerを評価し、886万行のMIMIC-IVと374のParquetファイルでスケールアップした。
Croissant Bakerは、プロデューサが承認した、あるいは標準から派生した真実に対して、複数のドメインで97-100%の合意に達した。
関連論文リスト
- Flexible metadata harvesting for ecology using large language models [3.4117490081172774]
大規模言語モデル(LLM)に基づくメタデータ抽出装置を開発した。
任意のデータセットのランディングページからメタデータを柔軟に抽出する。
既存のメタデータ標準を使用して、これらをユーザ定義の統一フォーマットに変換する。
論文 参考訳(メタデータ) (2025-08-21T10:10:29Z) - TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation [50.319535974012]
大規模言語モデル(LLM)の教師付き微調整と選好微調整を行うには、高品質なデータセットが必要である。
教師付きおよび好みの微調整のためのほとんどのデータセットは英語で提供されている。
本稿では、アンダーラインtextbfTaxonomy-Guided underlinetextbfPreference Data Generationフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:45:28Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Croissant: A Metadata Format for ML-Ready Datasets [15.856642334488459]
Croissantは、MLツール、フレームワーク、プラットフォーム間で共有表現を生成するデータセットのメタデータフォーマットである。
人間のレーティングによる最初の評価は、クロワサンのメタデータは読みやすく、理解しやすく、完全で、簡潔であることを示している。
論文 参考訳(メタデータ) (2024-03-28T16:27:26Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。