論文の概要: Data Provenance via Differential Auditing
- arxiv url: http://arxiv.org/abs/2209.01538v1
- Date: Sun, 4 Sep 2022 06:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:08:53.031460
- Title: Data Provenance via Differential Auditing
- Title(参考訳): 差分監査によるデータ漏洩
- Authors: Xin Mu, Ming Pang, Feida Zhu
- Abstract要約: 本稿では,データ提示を監査するための実践的フレームワークである差分監査(DPDA)によるデータ公開について紹介する。
本稿では,2つの効果的な監査機能実装,加算関数と乗算関数を提案する。
提案手法の有効性を示す実世界のデータセットの評価について報告する。
- 参考スコア(独自算出の注目度): 5.7962871424710665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auditing Data Provenance (ADP), i.e., auditing if a certain piece of data has
been used to train a machine learning model, is an important problem in data
provenance. The feasibility of the task has been demonstrated by existing
auditing techniques, e.g., shadow auditing methods, under certain conditions
such as the availability of label information and the knowledge of training
protocols for the target model. Unfortunately, both of these conditions are
often unavailable in real applications. In this paper, we introduce Data
Provenance via Differential Auditing (DPDA), a practical framework for auditing
data provenance with a different approach based on statistically significant
differentials, i.e., after carefully designed transformation, perturbed input
data from the target model's training set would result in much more drastic
changes in the output than those from the model's non-training set. This
framework allows auditors to distinguish training data from non-training ones
without the need of training any shadow models with the help of labeled output
data. Furthermore, we propose two effective auditing function implementations,
an additive one and a multiplicative one. We report evaluations on real-world
data sets demonstrating the effectiveness of our proposed auditing technique.
- Abstract(参考訳): ADP(Auditing Data Provenance, Auditing Data Provenance)とは、機械学習モデルのトレーニングに特定のデータが使用されているかどうかを監査することである。
この課題の実現性は、ラベル情報の提供や目標モデルのトレーニングプロトコルの知識といった特定の条件下で、例えばシャドウ監査手法のような既存の監査手法によって実証されてきた。
残念ながら、どちらの条件も実際のアプリケーションでは利用できないことが多い。
本稿では,統計学的に有意な差分に基づいて,異なるアプローチでデータの監査を行うための実用的なフレームワークである差分監査(dpda)によるデータプロヴァンスについて紹介する。
このフレームワークでは、ラベル付き出力データを使ってシャドウモデルをトレーニングすることなく、監査者がトレーニングデータとトレーニングデータとを区別することができる。
さらに,2つの効果的な監査機能実装,加算関数と乗算関数を提案する。
提案する監査手法の有効性を示す実世界のデータセットの評価を報告する。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - DIVA: Dataset Derivative of a Learning Task [108.18912044384213]
本稿では,データセットに関する学習課題の微分を計算する手法を提案する。
学習タスクは、トレーニングセットから検証エラーまでの関数であり、トレーニングされたディープニューラルネットワーク(DNN)で表現することができる。
は、トレーニングされたモデルを中心に計算され、各トレーニングサンプルの重みの外れ値がバリデーションエラーにどのように影響するかを知らせる線形演算子である。
論文 参考訳(メタデータ) (2021-11-18T16:33:12Z) - Self Training with Ensemble of Teacher Models [8.257085583227695]
堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
論文 参考訳(メタデータ) (2021-07-17T09:44:09Z) - Data Impressions: Mining Deep Models to Extract Samples for Data-free
Applications [26.48630545028405]
データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。
いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
論文 参考訳(メタデータ) (2021-01-15T11:37:29Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。