Fugu-MT 論文翻訳(概要): A General Framework for Data-Use Auditing of ML Models

論文の概要: A General Framework for Data-Use Auditing of ML Models

arxiv url: http://arxiv.org/abs/2407.15100v2
Date: Sun, 4 Aug 2024 05:55:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 20:19:11.385324
Title: A General Framework for Data-Use Auditing of ML Models
Title（参考訳）: MLモデルのデータ利用監査のための一般的なフレームワーク
Authors: Zonghao Huang, Neil Zhenqiang Gong, Michael K. Reiter,
Abstract要約: 本稿では,データ所有者のデータを用いた学習におけるMLモデルの評価方法を提案する。本稿では,2種類のMLモデルにおけるデータ利用を監査するために,提案手法の有効性を示す。
参考スコア（独自算出の注目度）: 47.369572284751285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Auditing the use of data in training machine-learning (ML) models is an increasingly pressing challenge, as myriad ML practitioners routinely leverage the effort of content creators to train models without their permission. In this paper, we propose a general method to audit an ML model for the use of a data-owner's data in training, without prior knowledge of the ML task for which the data might be used. Our method leverages any existing black-box membership inference method, together with a sequential hypothesis test of our own design, to detect data use with a quantifiable, tunable false-detection rate. We show the effectiveness of our proposed framework by applying it to audit data use in two types of ML models, namely image classifiers and foundation models.
Abstract（参考訳）: 機械学習(ML)モデルのトレーニングにおけるデータの使用を監査することは、無数のML実践者が日常的に、許可なくモデルのトレーニングにコンテンツクリエーターの努力を活用しているため、ますます厳しい課題となっている。本稿では、データを使用するMLタスクの事前知識を必要とせずに、データ所有者のデータを使用するためのMLモデルを評価するための一般的な手法を提案する。提案手法は,既存のブラックボックスメンバーシップ推定手法と,我々の設計の逐次的仮説テストを利用して,定量化・調整可能な偽検出速度でデータの使用を検出する。本稿では,2種類のMLモデル,すなわち画像分類器と基礎モデルにおけるデータ利用を監査するために,提案手法の有効性を示す。

関連論文リスト

Instance-Level Data-Use Auditing of Visual ML Models [47.369572284751285]
機械学習(ML)システムにおけるデータの使用に関する法的論争の高まりは、信頼性の高いデータ利用監査機構の必要性を強調している。本稿では、データ所有者がMLモデルにおける個々のデータインスタンスの使用を監査できるように設計された、最初のプロアクティブなインスタンスレベルのデータ利用監査手法を提案する。
論文参考訳（メタデータ） (2025-03-28T13:28:57Z)
Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文参考訳（メタデータ） (2024-10-16T23:05:59Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文参考訳（メタデータ） (2024-02-20T22:50:41Z)
Learn to Unlearn: A Survey on Machine Unlearning [29.077334665555316]
本稿では,最近の機械学習技術,検証機構,潜在的攻撃について概説する。新たな課題と今後の研究方向性を強調します。本稿では、プライバシ、エクイティ、レジリエンスをMLシステムに統合するための貴重なリソースの提供を目的としている。
論文参考訳（メタデータ） (2023-05-12T14:28:02Z)
AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文参考訳（メタデータ） (2023-04-07T08:50:18Z)
Deep Learning model integrity checking mechanism using watermarking technique [0.0]
モデル透かし技術を用いてMLモデルの整合性を監視するモデル整合性検査機構を提案する。提案手法は,計算コストの低い新しいデータに対して,モデルをさらに訓練した場合でも,MLモデルの完全性を監視することができる。
論文参考訳（メタデータ） (2023-01-29T03:05:53Z)
QuantifyML: How Good is my Machine Learning Model? [0.0]
QuantifyMLは、機械学習モデルが与えられたデータから学習し、一般化した範囲を定量化することを目的としている。この式は市販モデルカウンタを用いて解析し、異なるモデル挙動に関する正確な数を求める。
論文参考訳（メタデータ） (2021-10-25T01:56:01Z)
Supervised Machine Learning with Plausible Deniability [1.685485565763117]
機械学習(ML)モデルが、特定のデータセットでトレーニングされたモデルが、トレーニングデータに対してどの程度のプライバシを提供するか、という問題について検討する。我々は、純粋にランダムなトレーニングデータの集合を取ることができ、そこから、ちょうど$f$のMLモデルを生成する'適切な学習ルール'を定義することができることを示す。
論文参考訳（メタデータ） (2021-06-08T11:54:51Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
Transfer Learning without Knowing: Reprogramming Black-box Machine Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。 BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文参考訳（メタデータ） (2020-07-17T01:52:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。