論文の概要: Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability
- arxiv url: http://arxiv.org/abs/2506.01789v2
- Date: Tue, 03 Jun 2025 04:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.584753
- Title: Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability
- Title(参考訳): データシートが不十分: 自動品質メトリクスと説明責任のためのDataRubrics
- Authors: Genta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury,
- Abstract要約: 本稿では,データセットレビュープロセスに,体系的な記述型評価指標を組み込むことを提唱する。
我々は、人間とモデル生成データセットの品質を評価するための構造化フレームワークであるDataRubricsを紹介する。
- 参考スコア(独自算出の注目度): 41.23032741638842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality datasets are fundamental to training and evaluating machine learning models, yet their creation-especially with accurate human annotations-remains a significant challenge. Many dataset paper submissions lack originality, diversity, or rigorous quality control, and these shortcomings are often overlooked during peer review. Submissions also frequently omit essential details about dataset construction and properties. While existing tools such as datasheets aim to promote transparency, they are largely descriptive and do not provide standardized, measurable methods for evaluating data quality. Similarly, metadata requirements at conferences promote accountability but are inconsistently enforced. To address these limitations, this position paper advocates for the integration of systematic, rubric-based evaluation metrics into the dataset review process-particularly as submission volumes continue to grow. We also explore scalable, cost-effective methods for synthetic data generation, including dedicated tools and LLM-as-a-judge approaches, to support more efficient evaluation. As a call to action, we introduce DataRubrics, a structured framework for assessing the quality of both human- and model-generated datasets. Leveraging recent advances in LLM-based evaluation, DataRubrics offers a reproducible, scalable, and actionable solution for dataset quality assessment, enabling both authors and reviewers to uphold higher standards in data-centric research. We also release code to support reproducibility of LLM-based evaluations at https://github.com/datarubrics/datarubrics.
- Abstract(参考訳): 高品質なデータセットは機械学習モデルのトレーニングと評価に欠かせないものですが、その生成 — 特に正確な人間のアノテーションを持つ — には大きな課題が残っています。
多くのデータセット論文は、独創性、多様性、厳密な品質管理に欠けており、これらの欠点はピアレビュー中に見過ごされがちである。
また、データセットの構成とプロパティに関する重要な詳細は、しばしば省略される。
データシートのような既存のツールは透明性を促進することを目的としているが、それらは主に記述的であり、データ品質を評価するための標準化された測定可能な方法を提供していない。
同様に、カンファレンスのメタデータ要件は説明責任を促進するが、矛盾なく強制される。
これらの制約に対処するため,本論文では,入力ボリュームが増加し続けるにつれて,データセットレビュープロセスに,体系的かつルーリックな評価指標を組み込むことを提唱する。
また、より効率的な評価を支援するために、専用ツールやLCM-as-a-judgeアプローチを含む、スケーラブルで費用対効果の高い合成データ生成手法についても検討する。
アクションへのコールとして、人間とモデル生成データセットの品質を評価するための構造化フレームワークであるDataRubricsを紹介します。
LLMベースの評価の最近の進歩を活用して、DataRubricsは、データセットの品質評価のための再現可能でスケーラブルで実行可能なソリューションを提供する。
また、LLMに基づく評価の再現性をサポートするためのコードをhttps://github.com/datarubrics/datarubricsでリリースしています。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。
体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。
外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T17:20:02Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Evaluation of Synthetic Datasets for Conversational Recommender Systems [0.0]
堅牢な評価フレームワークがないことは長年の問題だった。
ダウンストリームアプリケーションでは,トレーニングデータの質が重要なので,その質を評価する指標を開発することが重要である。
本稿では,生成モデルが生成したデータセットを評価するために,多面的アプローチを採用するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-12T18:53:10Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。