論文の概要: A General Framework for Data-Use Auditing of ML Models
- arxiv url: http://arxiv.org/abs/2407.15100v2
- Date: Sun, 4 Aug 2024 05:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:19:11.385324
- Title: A General Framework for Data-Use Auditing of ML Models
- Title(参考訳): MLモデルのデータ利用監査のための一般的なフレームワーク
- Authors: Zonghao Huang, Neil Zhenqiang Gong, Michael K. Reiter,
- Abstract要約: 本稿では,データ所有者のデータを用いた学習におけるMLモデルの評価方法を提案する。
本稿では,2種類のMLモデルにおけるデータ利用を監査するために,提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 47.369572284751285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auditing the use of data in training machine-learning (ML) models is an increasingly pressing challenge, as myriad ML practitioners routinely leverage the effort of content creators to train models without their permission. In this paper, we propose a general method to audit an ML model for the use of a data-owner's data in training, without prior knowledge of the ML task for which the data might be used. Our method leverages any existing black-box membership inference method, together with a sequential hypothesis test of our own design, to detect data use with a quantifiable, tunable false-detection rate. We show the effectiveness of our proposed framework by applying it to audit data use in two types of ML models, namely image classifiers and foundation models.
- Abstract(参考訳): 機械学習(ML)モデルのトレーニングにおけるデータの使用を監査することは、無数のML実践者が日常的に、許可なくモデルのトレーニングにコンテンツクリエーターの努力を活用しているため、ますます厳しい課題となっている。
本稿では、データを使用するMLタスクの事前知識を必要とせずに、データ所有者のデータを使用するためのMLモデルを評価するための一般的な手法を提案する。
提案手法は,既存のブラックボックスメンバーシップ推定手法と,我々の設計の逐次的仮説テストを利用して,定量化・調整可能な偽検出速度でデータの使用を検出する。
本稿では,2種類のMLモデル,すなわち画像分類器と基礎モデルにおけるデータ利用を監査するために,提案手法の有効性を示す。
関連論文リスト
- Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。
我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。
テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T22:50:41Z) - Learn to Unlearn: A Survey on Machine Unlearning [29.077334665555316]
本稿では,最近の機械学習技術,検証機構,潜在的攻撃について概説する。
新たな課題と今後の研究方向性を強調します。
本稿では、プライバシ、エクイティ、レジリエンスをMLシステムに統合するための貴重なリソースの提供を目的としている。
論文 参考訳(メタデータ) (2023-05-12T14:28:02Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - QuantifyML: How Good is my Machine Learning Model? [0.0]
QuantifyMLは、機械学習モデルが与えられたデータから学習し、一般化した範囲を定量化することを目的としている。
この式は市販モデルカウンタを用いて解析し、異なるモデル挙動に関する正確な数を求める。
論文 参考訳(メタデータ) (2021-10-25T01:56:01Z) - Supervised Machine Learning with Plausible Deniability [1.685485565763117]
機械学習(ML)モデルが、特定のデータセットでトレーニングされたモデルが、トレーニングデータに対してどの程度のプライバシを提供するか、という問題について検討する。
我々は、純粋にランダムなトレーニングデータの集合を取ることができ、そこから、ちょうど$f$のMLモデルを生成する'適切な学習ルール'を定義することができることを示す。
論文 参考訳(メタデータ) (2021-06-08T11:54:51Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。