論文の概要: Compliance Rating Scheme: A Data Provenance Framework for Generative AI Datasets
- arxiv url: http://arxiv.org/abs/2512.21775v1
- Date: Thu, 25 Dec 2025 20:13:46 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:53:50.487623
- Title: Compliance Rating Scheme: A Data Provenance Framework for Generative AI Datasets
- Title(参考訳): コンプライアンスレーティングスキーム - 生成AIデータセットのためのデータプロバンスフレームワーク
- Authors: Matyas Bohacek, Ignacio Vilanova Echavarri,
- Abstract要約: 我々は、重要な透明性、説明責任、セキュリティ原則によるデータセットコンプライアンスを評価するために設計されたフレームワークである、コンプライアンスレーティングスキーム(CRS)を紹介します。
このフレームワークを実装するために,データプロファイランス技術を中心に構築された,オープンソースのPythonライブラリもリリースしています。
- 参考スコア(独自算出の注目度): 2.707154152696381
- License:
- Abstract: Generative Artificial Intelligence (GAI) has experienced exponential growth in recent years, partly facilitated by the abundance of large-scale open-source datasets. These datasets are often built using unrestricted and opaque data collection practices. While most literature focuses on the development and applications of GAI models, the ethical and legal considerations surrounding the creation of these datasets are often neglected. In addition, as datasets are shared, edited, and further reproduced online, information about their origin, legitimacy, and safety often gets lost. To address this gap, we introduce the Compliance Rating Scheme (CRS), a framework designed to evaluate dataset compliance with critical transparency, accountability, and security principles. We also release an open-source Python library built around data provenance technology to implement this framework, allowing for seamless integration into existing dataset-processing and AI training pipelines. The library is simultaneously reactive and proactive, as in addition to evaluating the CRS of existing datasets, it equally informs responsible scraping and construction of new datasets.
- Abstract(参考訳): ジェネレーティブ・人工知能(GAI)は近年、大規模なオープンソースデータセットの豊富さによって部分的に促進され、指数関数的な成長を遂げている。
これらのデータセットは、制限のない不透明なデータ収集プラクティスを使用して構築されることが多い。
ほとんどの文献はGAIモデルの開発と応用に焦点を当てているが、これらのデータセットの作成に関する倫理的および法的考察は無視されることが多い。
さらに、データセットが共有され、編集され、さらにオンラインで再生されるにつれて、その起源、正当性、安全性に関する情報はしばしば失われます。
このギャップに対処するために、重要な透明性、説明責任、セキュリティ原則によるデータセットコンプライアンスの評価を目的としたフレームワークである、コンプライアンスレーティングスキーム(CRS)を紹介します。
我々はまた、このフレームワークを実装するためにデータプロファイランス技術を中心に構築されたオープンソースのPythonライブラリをリリースし、既存のデータセット処理とAIトレーニングパイプラインへのシームレスな統合を可能にしました。
ライブラリは、既存のデータセットのCRSの評価に加えて、新しいデータセットのスクレイピングと構築に責任を負うことを通知する。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - Generative Data Refinement: Just Ask for Better Data [19.774236070314963]
トレーニングデータセットは、新たなデータがWeb上でインデックスされるレートよりも速く成長する。
公開インデックス化されていないユーザ生成コンテンツとして、さらに多くのデータが存在しているが、そのようなデータの導入にはかなりのリスクが伴う。
我々は、事前訓練された生成モデルを使用して、望ましくないコンテンツを持つデータセットを洗練されたデータセットに変換するためのフレームワーク、生成データ精細化(GDR)を紹介する。
論文 参考訳(メタデータ) (2025-09-10T14:49:12Z) - Know Your RAG: Dataset Taxonomy and Generation Strategies for Evaluating RAG Systems [18.62773754004561]
検索性能を評価するために公開質問と回答(Q&A)データセットを使用することで、最適でないシステム設計につながることを示す。
本稿ではラベルとラベルをターゲットとしたデータ生成によるRAGデータセットの特徴付けに基づくソリューションを提案する。
論文 参考訳(メタデータ) (2024-11-29T13:57:07Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - DataGen: Unified Synthetic Dataset Generation via Large Language Models [88.16197692794707]
DataGenは、多様な、正確で、高度に制御可能なデータセットを生成するように設計された包括的なフレームワークである。
データ多様性を強化するため、DataGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、DataGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。