論文の概要: Instance-Level Data-Use Auditing of Visual ML Models
- arxiv url: http://arxiv.org/abs/2503.22413v1
- Date: Fri, 28 Mar 2025 13:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:46.690530
- Title: Instance-Level Data-Use Auditing of Visual ML Models
- Title(参考訳): ビジュアルMLモデルのインスタンスレベルデータ利用監査
- Authors: Zonghao Huang, Neil Zhenqiang Gong, Michael K. Reiter,
- Abstract要約: 機械学習(ML)システムにおけるデータの使用に関する法的論争の高まりは、信頼性の高いデータ利用監査機構の必要性を強調している。
本稿では、データ所有者がMLモデルにおける個々のデータインスタンスの使用を監査できるように設計された、最初のプロアクティブなインスタンスレベルのデータ利用監査手法を提案する。
- 参考スコア(独自算出の注目度): 47.369572284751285
- License:
- Abstract: The growing trend of legal disputes over the unauthorized use of data in machine learning (ML) systems highlights the urgent need for reliable data-use auditing mechanisms to ensure accountability and transparency in ML. In this paper, we present the first proactive instance-level data-use auditing method designed to enable data owners to audit the use of their individual data instances in ML models, providing more fine-grained auditing results. Our approach integrates any black-box membership inference technique with a sequential hypothesis test, providing a quantifiable and tunable false-detection rate. We evaluate our method on three types of visual ML models: image classifiers, visual encoders, and Contrastive Image-Language Pretraining (CLIP) models. In additional, we apply our method to evaluate the performance of two state-of-the-art approximate unlearning methods. Our findings reveal that neither method successfully removes the influence of the unlearned data instances from image classifiers and CLIP models even if sacrificing model utility by $10.33\%$.
- Abstract(参考訳): 機械学習(ML)システムにおけるデータの使用に関する法的論争の高まりは、MLにおける説明責任と透明性を確保するために、信頼性の高いデータ利用監査メカニズムが緊急に必要であることを示している。
本稿では、データ所有者がMLモデルで個々のデータインスタンスの使用を監査できるように設計し、よりきめ細かい監査結果を提供する。
提案手法は,任意のブラックボックスメンバシップ推論手法を逐次仮説テストと統合し,定量化および調整可能な偽検出率を提供する。
本稿では,画像分類器,ビジュアルエンコーダ,コントラスト画像言語事前学習(CLIP)の3種類の視覚MLモデルについて検討する。
さらに,2つの非学習手法の性能評価に本手法を適用した。
その結果,画像分類器やCLIPモデルから未学習データインスタンスの影響を,モデルユーティリティを10.33 %$で犠牲にしても,いずれの手法もうまく除去できないことがわかった。
関連論文リスト
- Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - A General Framework for Data-Use Auditing of ML Models [47.369572284751285]
本稿では,データ所有者のデータを用いた学習におけるMLモデルの評価方法を提案する。
本稿では,2種類のMLモデルにおけるデータ利用を監査するために,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-07-21T09:32:34Z) - Alignment Calibration: Machine Unlearning for Contrastive Learning under Auditing [33.418062986773606]
まず,Machine Unlearning for Contrastive Learning (MUC) の枠組みを提案し,既存の手法を適用した。
我々は,いくつかの手法が未学習者であり,既存の監査ツールがデータ所有者にとって,対照的な学習における未学習の効果を検証するのに十分でないことを観察した。
コントラスト学習の特性を明示的に考慮し,未学習を容易に検証するための新しい指標に最適化することで,アライメント(AC)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-05T19:55:45Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Learn to Unlearn: A Survey on Machine Unlearning [29.077334665555316]
本稿では,最近の機械学習技術,検証機構,潜在的攻撃について概説する。
新たな課題と今後の研究方向性を強調します。
本稿では、プライバシ、エクイティ、レジリエンスをMLシステムに統合するための貴重なリソースの提供を目的としている。
論文 参考訳(メタデータ) (2023-05-12T14:28:02Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Certifiable Machine Unlearning for Linear Models [1.484852576248587]
機械学習は、トレーニングされたトレーニングデータのサブセットが削除された後、機械学習(ML)モデルを更新するタスクである。
本稿では,線形モデルに対する3つの非学習手法について実験的に検討する。
論文 参考訳(メタデータ) (2021-06-29T05:05:58Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。