論文の概要: Conformal Data Contamination Tests for Trading or Sharing of Data
- arxiv url: http://arxiv.org/abs/2507.13835v1
- Date: Fri, 18 Jul 2025 11:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.270896
- Title: Conformal Data Contamination Tests for Trading or Sharing of Data
- Title(参考訳): データの取引・共有のためのコンフォーマルデータ汚染試験
- Authors: Martin V. Vejling, Shashi Raj Pandey, Christophe A. N. Biscio, Petar Popovski,
- Abstract要約: 多くの機械学習タスクにおける品質データの量は、データ所有者がローカルに利用できるものに限られる。
本稿では,モデルパーソナライズに最も有用な外部データエージェントを識別する分散フリーな汚染対応データ共有フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.020738753027043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The amount of quality data in many machine learning tasks is limited to what is available locally to data owners. The set of quality data can be expanded through trading or sharing with external data agents. However, data buyers need quality guarantees before purchasing, as external data may be contaminated or irrelevant to their specific learning task. Previous works primarily rely on distributional assumptions about data from different agents, relegating quality checks to post-hoc steps involving costly data valuation procedures. We propose a distribution-free, contamination-aware data-sharing framework that identifies external data agents whose data is most valuable for model personalization. To achieve this, we introduce novel two-sample testing procedures, grounded in rigorous theoretical foundations for conformal outlier detection, to determine whether an agent's data exceeds a contamination threshold. The proposed tests, termed conformal data contamination tests, remain valid under arbitrary contamination levels while enabling false discovery rate control via the Benjamini-Hochberg procedure. Empirical evaluations across diverse collaborative learning scenarios demonstrate the robustness and effectiveness of our approach. Overall, the conformal data contamination test distinguishes itself as a generic procedure for aggregating data with statistically rigorous quality guarantees.
- Abstract(参考訳): 多くの機械学習タスクにおける品質データの量は、データ所有者がローカルに利用できるものに限られる。
品質データのセットは、外部データエージェントとの取引や共有を通じて拡張することができる。
しかし、データ購入者は、外部データを汚染したり、特定の学習タスクに無関係にしたりするため、購入前に品質保証が必要である。
これまでの作業は主に、さまざまなエージェントのデータに関する分散仮定に依存しており、コストのかかるデータバリュエーション手順を含むポストホックステップに品質チェックを委譲する。
本稿では,モデルパーソナライズに最も有用な外部データエージェントを識別する分散フリーな汚染対応データ共有フレームワークを提案する。
そこで本研究では, 共形外乱検出のための厳密な理論的基礎を基礎として, エージェントのデータが汚染閾値を超えるか否かを判定する新しい2サンプル試験手法を提案する。
提案した試験は共形データ汚染試験と呼ばれ、任意の汚染レベルの下で有効でありながら、ベンジャミン=ホックベルク法による誤った発見率制御が可能である。
多様な協調学習シナリオにまたがる実証的な評価は、我々のアプローチの堅牢性と有効性を示している。
全体として、共形データ汚染試験は、統計学的に厳密な品質保証でデータを集約するための一般的な手順として、自分自身を区別する。
関連論文リスト
- Unlocking Post-hoc Dataset Inference with Synthetic Data [11.886166976507711]
トレーニングデータセットは、データ所有者の知的財産権を尊重することなく、しばしばインターネットから取り除かれる。
推論(DI)は、被疑者データセットがトレーニングに使用されたかどうかを特定することで潜在的な治療を提供する。
既存のDIメソッドでは、妥協したデータセットの分布と密接に一致するトレーニングを欠くために、プライベートな設定を必要とします。
本研究では,必要なホールドアウト集合を合成的に生成することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-06-18T08:46:59Z) - Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文 参考訳(メタデータ) (2024-11-01T17:13:14Z) - Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Fundamentals of Task-Agnostic Data Valuation [21.78555506720078]
データ検索/購入者のためのデータ所有者/販売者のデータ評価について検討する。
検証の必要なく、タスクに依存しないデータ評価に重点を置いています。
論文 参考訳(メタデータ) (2022-08-25T22:07:07Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Generating Higher-Fidelity Synthetic Datasets with Privacy Guarantees [34.01962235805095]
データアノテーションやインスペクションなど,一般的な機械学習開発タスクにおけるユーザのプライバシ向上の課題を考察する。
我々はベイズ微分プライバシーを、より優れたプライバシー利用トレードオフを提供しながら厳密な理論的保証を達成する手段として採用することを提案する。
論文 参考訳(メタデータ) (2020-03-02T16:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。