論文の概要: Efficiently Verifiable Proofs of Data Attribution
- arxiv url: http://arxiv.org/abs/2508.10866v2
- Date: Sun, 17 Aug 2025 22:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 12:43:44.920513
- Title: Efficiently Verifiable Proofs of Data Attribution
- Title(参考訳): データ属性の有効検証証明
- Authors: Ari Karchmer, Martin Pawelczyk, Seth Neel,
- Abstract要約: 本稿では,データ属性に対する対話型検証パラダイムを提案する。
本稿では,PAC(Probably-Aqua-Correct)検証の意味において,形式的完全性,健全性,効率性を保証する。
- 参考スコア(独自算出の注目度): 9.05608916348947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data attribution methods aim to answer useful counterfactual questions like "what would a ML model's prediction be if it were trained on a different dataset?" However, estimation of data attribution models through techniques like empirical influence or "datamodeling" remains very computationally expensive. This causes a critical trust issue: if only a few computationally rich parties can obtain data attributions, how can resource-constrained parties trust that the provided attributions are indeed "good," especially when they are used for important downstream applications (e.g., data pricing)? In this paper, we address this trust issue by proposing an interactive verification paradigm for data attribution. An untrusted and computationally powerful Prover learns data attributions, and then engages in an interactive proof with a resource-constrained Verifier. Our main result is a protocol that provides formal completeness, soundness, and efficiency guarantees in the sense of Probably-Approximately-Correct (PAC) verification. Specifically, if both Prover and Verifier follow the protocol, the Verifier accepts data attributions that are {\epsilon}-close to the optimal data attributions (in terms of the Mean Squared Error) with probability 1-{\delta}. Conversely, if the Prover arbitrarily deviates from the protocol, even with infinite compute, then this is detected (or it still yields data attributions to the Verifier) except with probability {\delta}. Importantly, our protocol ensures the Verifier's workload, measured by the number of independent model retrainings it must perform, scales only as O(1/{\epsilon}); i.e., independently of the dataset size. At a technical level, our results apply to efficiently verifying any linear function over the boolean hypercube computed by the Prover, making them broadly applicable to various attribution tasks.
- Abstract(参考訳): データ属性手法は、“MLモデルの予測は、異なるデータセットでトレーニングされた場合、何になるのか?
しかし、経験的影響や「データモデリング」のような手法によるデータ帰属モデルの推定は、計算コストが非常に高いままである。
これは重要な信頼の問題を引き起こします – 計算に富んだ一部の関係者だけがデータ属性を取得できるのであれば、リソース制約のある関係者は、特に重要な下流アプリケーション(例えば、データ価格)で使用される場合、どのようにして、提供された属性が"良い"と信頼できるのでしょうか?
本稿では,データ帰属のための対話型検証パラダイムを提案することによって,この信頼問題に対処する。
信頼できない計算力のあるProverは、データ属性を学び、リソース制約された検証器で対話的な証明を行う。
本研究の主な成果は,PAC(Probably-Aqua-Correct)検証において,形式的完全性,健全性,効率性を保証するプロトコルである。
具体的には、Prover と Verifier がプロトコルに従えば、Verifier は確率 1-{\delta} で最適なデータ属性(平均二乗誤差の項で)に一致するデータ属性を受け入れる。
逆に、Prover が無限の計算でもプロトコルから任意に逸脱した場合、確率 {\delta} を除いて検出される(あるいは、検証子にデータ属性を出力する)。
重要なことは、我々のプロトコルは、検証者のワークロードを、実行しなければならない独立したモデル再トレーニングの数によって測定し、O(1/{\epsilon})としてスケールすることを保証する。
技術的レベルでは,Proverによって計算されたブールハイパーキューブ上の任意の線形関数を効率よく検証し,様々な帰属タスクに広く適用することができる。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Gaussian Process Probes (GPP) for Uncertainty-Aware Probing [61.91898698128994]
モデルによって表現される概念に関する不確実性を探索し、測定するための統一的でシンプルなフレームワークを導入する。
実験の結果,(1)ごく少数の例でも,モデルの概念表現を探索し,(2)認識の不確実性(プローブがどの程度確実か)と解離不確実性(モデルがファジィか)を正確に測定し,(3)これらの不確実性尺度と古典的手法を用いて分布データの検出を行うことができた。
論文 参考訳(メタデータ) (2023-05-29T17:00:16Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Automatically detecting data drift in machine learning classifiers [2.202253618096515]
機械学習のパフォーマンスデータドリフト」や「ドリフト」に影響を及ぼす変化を言う。
提案するラベルの分類と信頼性のみに基づくアプローチを提案し,データ分散やデータドリフトの原因となる可能性のある特徴空間の変更を警告する。
論文 参考訳(メタデータ) (2021-11-10T12:34:14Z) - Fair Densities via Boosting the Sufficient Statistics of Exponential
Families [72.34223801798422]
フェアネスのためのデータ前処理にブースティングアルゴリズムを導入する。
私たちのアプローチは、最小限の公平性を確保しながら、より良いデータフィッティングへとシフトします。
実世界のデータに結果の質を示す実験結果が提示される。
論文 参考訳(メタデータ) (2020-12-01T00:49:17Z) - Privacy-Preserving Gaussian Process Regression -- A Modular Approach to
the Application of Homomorphic Encryption [4.1499725848998965]
ホモモルフィック暗号化(FHE)は、データを暗号化しながら計算することができる。
ガウス過程回帰のような一般的な機械学習アルゴリズムは、FHEにはあまり適していない。
保護を必要とするワークフローのセンシティブなステップのみにFHEを適用するモジュラーアプローチは、あるパーティがデータに対して予測できることを示している。
論文 参考訳(メタデータ) (2020-01-28T11:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。