論文の概要: Tools for Verifying Neural Models' Training Data
- arxiv url: http://arxiv.org/abs/2307.00682v1
- Date: Sun, 2 Jul 2023 23:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 14:36:04.355350
- Title: Tools for Verifying Neural Models' Training Data
- Title(参考訳): 神経モデルのトレーニングデータを検証するためのツール
- Authors: Dami Choi, Yonadav Shavit, David Duvenaud
- Abstract要約: The Proof-of-Training-Data”では、モデルトレーナーがモデルの重みを発生させたトレーニングデータの検証を納得させることができる。
検証手順が多種多様な攻撃をキャッチできることを実験的に示す。
- 参考スコア(独自算出の注目度): 29.322899317216407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is important that consumers and regulators can verify the provenance of
large neural models to evaluate their capabilities and risks. We introduce the
concept of a "Proof-of-Training-Data": any protocol that allows a model trainer
to convince a Verifier of the training data that produced a set of model
weights. Such protocols could verify the amount and kind of data and compute
used to train the model, including whether it was trained on specific harmful
or beneficial data sources. We explore efficient verification strategies for
Proof-of-Training-Data that are compatible with most current large-model
training procedures. These include a method for the model-trainer to verifiably
pre-commit to a random seed used in training, and a method that exploits
models' tendency to temporarily overfit to training data in order to detect
whether a given data-point was included in training. We show experimentally
that our verification procedures can catch a wide variety of attacks, including
all known attacks from the Proof-of-Learning literature.
- Abstract(参考訳): 消費者と規制当局が大きなニューラルモデルの存在を検証し、その能力とリスクを評価することが重要である。
本稿では,モデルトレーナーがモデルの重みを生成したトレーニングデータの検証者に対して,モデルトレーナーが納得できるようなプロトコルについて紹介する。
このようなプロトコルは、特定の有害または有益なデータソースでトレーニングされたかどうかを含む、モデルのトレーニングに使用されるデータ量と種類、計算を検証することができる。
本稿では,現在行われているほとんどの大規模モデルの訓練手順と互換性のある訓練データの有効性を検証する。
これには、トレーニングに使用されるランダムシードに確実に事前コミットするモデルトレーナの方法と、与えられたデータポイントがトレーニングに含まれているかどうかを検出するために、トレーニングデータに一時的に過度に適合するモデルの傾向を利用する方法が含まれる。
筆者らによる検証手法は,実証文献からの既知の攻撃を含め,多種多様な攻撃をキャッチできることを実験的に示す。
関連論文リスト
- Training Data Attribution: Was Your Model Secretly Trained On Data Created By Mine? [17.714589429503675]
テキスト・ツー・イメージ・モデルに対するインジェクションフリーなトレーニングデータ属性法を提案する。
我々のアプローチでは、異なるサンプルを発見できるアルゴリズムを開発し、それらを固有の透かしとして利用する。
実験により,疑わしいモデルのトレーニングデータのソースを特定する精度が80%以上であることが確認された。
論文 参考訳(メタデータ) (2024-09-24T06:23:43Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Learning to Unlearn: Instance-wise Unlearning for Pre-trained
Classifiers [71.70205894168039]
そこでは、事前訓練されたモデルからインスタンスのセットに関する情報を削除することを目標としています。
本稿では,1)表現レベルでの忘れを克服するために,敵の例を活用すること,2)不必要な情報を伝播するネットワークパラメータをピンポイントする重み付け指標を活用すること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2023-01-27T07:53:50Z) - Targeted Image Reconstruction by Sampling Pre-trained Diffusion Model [0.0]
トレーニングされたニューラルネットワークモデルには、トレーニングデータに関する情報が含まれている。
悪意ある当事者は、このモデルで"知識"を活用することができ、使用可能な情報をプリントアウトする方法を設計することができる。
本研究では,対象の分布を事前に把握せずに,対象のクラスのデータポイントを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:21:38Z) - Provable Fairness for Neural Network Models using Formal Verification [10.90121002896312]
本稿では,ニューラルネットワークモデルの特性を検証する形式的手法を用いて,公平性を向上する手法を提案する。
適切なトレーニングによって、AUCスコアの1%未満のコストで、平均65.4%の不公平さを削減できることを示す。
論文 参考訳(メタデータ) (2022-12-16T16:54:37Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - Leveraging Adversarial Examples to Quantify Membership Information
Leakage [30.55736840515317]
パターン認識モデルにおけるメンバシップ推論の問題に対処する新しいアプローチを開発する。
この量はトレーニングデータに属する可能性を反映していると我々は主張する。
我々の手法は、最先端の戦略に匹敵する、あるいは上回る性能を発揮する。
論文 参考訳(メタデータ) (2022-03-17T19:09:38Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。