論文の概要: Revisiting Model Inversion Evaluation: From Misleading Standards to Reliable Privacy Assessment
- arxiv url: http://arxiv.org/abs/2505.03519v3
- Date: Sat, 24 May 2025 13:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:54.64742
- Title: Revisiting Model Inversion Evaluation: From Misleading Standards to Reliable Privacy Assessment
- Title(参考訳): モデル・インバージョン・アセスメントを再考する: ミスリーディング・スタンダードから信頼性の高いプライバシ・アセスメントへ
- Authors: Sy-Tuyen Ho, Koh Jun Hao, Ngoc-Bao Nguyen, Alexander Binder, Ngai-Man Cheung,
- Abstract要約: モデル反転(MI)攻撃は、機械学習モデルTへのアクセスを利用して、プライベートトレーニングデータから情報を再構築することを目的としている。
このような攻撃に対する標準的な評価フレームワークは、Tと同じタスク設計で訓練された評価モデルEに依存している。
このフレームワークはMI研究の進歩を評価するためのデファクトスタンダードとなり、近年のMI攻撃や防衛のほとんどすべてで問題なく使用されている。
- 参考スコア(独自算出の注目度): 63.07424521895492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model Inversion (MI) attacks aim to reconstruct information from private training data by exploiting access to machine learning models T. To evaluate such attacks, the standard evaluation framework for such attacks relies on an evaluation model E, trained under the same task design as T. This framework has become the de facto standard for assessing progress in MI research, used across nearly all recent MI attacks and defenses without question. In this paper, we present the first in-depth study of this MI evaluation framework. In particular, we identify a critical issue of this standard MI evaluation framework: Type-I adversarial examples. These are reconstructions that do not capture the visual features of private training data, yet are still deemed successful by the target model T and ultimately transferable to E. Such false positives undermine the reliability of the standard MI evaluation framework. To address this issue, we introduce a new MI evaluation framework that replaces the evaluation model E with advanced Multimodal Large Language Models (MLLMs). By leveraging their general-purpose visual understanding, our MLLM-based framework does not depend on training of shared task design as in T, thus reducing Type-I transferability and providing more faithful assessments of reconstruction success. Using our MLLM-based evaluation framework, we reevaluate 26 diverse MI attack setups and empirically reveal consistently high false positive rates under the standard evaluation framework. Importantly, we demonstrate that many state-of-the-art (SOTA) MI methods report inflated attack accuracy, indicating that actual privacy leakage is significantly lower than previously believed. By uncovering this critical issue and proposing a robust solution, our work enables a reassessment of progress in MI research and sets a new standard for reliable and robust evaluation.
- Abstract(参考訳): モデル反転(MI)攻撃は、機械学習モデルTへのアクセスを利用してプライベートトレーニングデータからの情報を再構築することを目的としており、そのような攻撃の標準的な評価フレームワークは、Tと同じタスク設計で訓練された評価モデルEに依存している。
本稿では,このMI評価フレームワークの詳細な研究について述べる。
特に、この標準MI評価フレームワークの重要な問題として、Type-Iの逆例を挙げる。
これらは、プライベートトレーニングデータの視覚的特徴を捉えない再構成であり、それでもターゲットモデルTで成功し、最終的にはEに転送可能であると考えられている。
この問題に対処するために,評価モデルEを高度マルチモーダル大言語モデル(MLLM)に置き換える新しいMI評価フレームワークを導入する。
汎用的な視覚的理解を活用することで、MLLMベースのフレームワークは、Tのような共有タスク設計のトレーニングに依存せず、型I転送可能性の低減と、より忠実な再構築成功の評価を提供する。
MLLMに基づく評価フレームワークを用いて、26種類のMI攻撃設定を再評価し、標準評価フレームワークの下で一貫して高い偽陽性率を示す。
重要なことは、多くのSOTA(State-of-the-art (SOTA) MI)メソッドが攻撃精度の増大を報告しており、実際のプライバシー漏洩が以前考えられていたよりも著しく低いことを示している。
この重要な問題を解明し、ロバストなソリューションを提案することで、MI研究の進展を再評価し、信頼性とロバストな評価のための新しい標準を設定します。
関連論文リスト
- A Sample-Level Evaluation and Generative Framework for Model Inversion Attacks [26.585927770608105]
モデル反転(MI)攻撃は機械学習において重大なプライバシー上の懸念を引き起こす。
最近のMI攻撃は、現実的なラベルレベルのプライベートデータを再構築することに成功した。
単一対象サンプルのプライベート情報であるサンプルレベルのプライバシも重要であるが,MI文献では未検討である。
論文 参考訳(メタデータ) (2025-02-26T11:50:43Z) - Model Inversion Attacks: A Survey of Approaches and Countermeasures [59.986922963781]
近年、新しいタイプのプライバシ攻撃であるモデル反転攻撃(MIA)は、トレーニングのためのプライベートデータの機密性を抽出することを目的としている。
この重要性にもかかわらず、総合的な概要とMIAに関する深い洞察を提供する体系的な研究が欠如している。
本調査は、攻撃と防御の両方において、最新のMIA手法を要約することを目的としている。
論文 参考訳(メタデータ) (2024-11-15T08:09:28Z) - FedMIA: An Effective Membership Inference Attack Exploiting "All for One" Principle in Federated Learning [17.141646895576145]
Federated Learning(FL)は、分散データ上で機械学習モデルをトレーニングするための有望なアプローチである。
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットクライアントのトレーニングセットに属するかどうかを判断することを目的としている。
我々はFedMIAと呼ばれる3段階のメンバーシップ推論攻撃(MIA)手法を導入し、MIAの有効性を高めるため、複数の通信ラウンドにまたがる全クライアントからの更新を平均化する。
論文 参考訳(メタデータ) (2024-02-09T09:58:35Z) - AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models [29.92550386563915]
ジェイルブレイク攻撃は、大規模言語モデル(LLM)のセキュリティに対する最も洗練された脅威の1つである。
LLMに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-17T06:42:44Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。