Fugu-MT 論文翻訳(概要): Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration

論文の概要: Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration

arxiv url: http://arxiv.org/abs/2311.06062v2
Date: Tue, 12 Dec 2023 03:44:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 19:20:32.335801
Title: Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration
Title（参考訳）: 自己宣伝校正による微調整大言語モデルに対する実践的メンバーシップ推論攻撃
Authors: Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang
Abstract要約: メンバーシップ推論攻撃(MIA)は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。具体的には、LLMの記憶はトレーニングプロセス中に必然的に必要であり、オーバーフィッティング前に発生するので、より信頼性の高いメンバーシップ信号を導入する。
参考スコア（独自算出の注目度）: 33.77030569632993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Membership Inference Attacks (MIA) aim to infer whether a target data record has been utilized for model training or not. Prior attempts have quantified the privacy risks of language models (LMs) via MIAs, but there is still no consensus on whether existing MIA algorithms can cause remarkable privacy leakage on practical Large Language Models (LLMs). Existing MIAs designed for LMs can be classified into two categories: reference-free and reference-based attacks. They are both based on the hypothesis that training records consistently strike a higher probability of being sampled. Nevertheless, this hypothesis heavily relies on the overfitting of target models, which will be mitigated by multiple regularization methods and the generalization of LLMs. The reference-based attack seems to achieve promising effectiveness in LLMs, which measures a more reliable membership signal by comparing the probability discrepancy between the target model and the reference model. However, the performance of reference-based attack is highly dependent on a reference dataset that closely resembles the training dataset, which is usually inaccessible in the practical scenario. Overall, existing MIAs are unable to effectively unveil privacy leakage over practical fine-tuned LLMs that are overfitting-free and private. We propose a Membership Inference Attack based on Self-calibrated Probabilistic Variation (SPV-MIA). Specifically, since memorization in LLMs is inevitable during the training process and occurs before overfitting, we introduce a more reliable membership signal, probabilistic variation, which is based on memorization rather than overfitting. Furthermore, we introduce a self-prompt approach, which constructs the dataset to fine-tune the reference model by prompting the target LLM itself. In this manner, the adversary can collect a dataset with a similar distribution from public APIs.
Abstract（参考訳）: メンバーシップ推論攻撃(mia)は、対象のデータレコードがモデルトレーニングに利用されたかどうかを推測することを目的としている。以前の試みでは、MIAを介して言語モデル(LM)のプライバシーリスクを定量化していたが、既存のMIAアルゴリズムが実用的な大規模言語モデル(LLM)に顕著なプライバシー漏洩を引き起こすかどうかについては合意が得られていない。 LM用に設計された既存のMIAは、参照フリーと参照ベースアタックの2つのカテゴリに分類される。どちらも、トレーニングレコードがサンプリングされる確率が常に高いという仮説に基づいている。しかしながら、この仮説は、複数の正規化法とLLMの一般化によって緩和されるターゲットモデルの過剰適合に大きく依存している。基準ベース攻撃は、目標モデルと基準モデルとの確率差を比較することにより、より信頼性の高い会員信号を測定するLLMにおいて有望な効果を達成しているように見える。しかしながら、参照ベースの攻撃のパフォーマンスは、トレーニングデータセットに非常に近い参照データセットに大きく依存している。全体として、既存のMIAは、過度にフィットせずプライベートな、実用的な微調整のLLMに対して、効果的なプライバシー漏洩を公開することができない。本稿では,自補的確率的変動(spv-mia)に基づくメンバシップ推論攻撃を提案する。具体的には, 学習過程においてllmの記憶は避けられず, オーバーフィッティング前に発生するため, オーバーフィッティングよりも記憶に基づく, より信頼性の高いメンバーシップ信号, 確率的変動を導入する。さらに,LLM自体を誘導することで,参照モデルを微調整するデータセットを構築するセルフプロンプト手法を提案する。このようにして、相手はパブリックAPIから同様の分布を持つデータセットを収集できる。

関連論文リスト

PerProb: Indirectly Evaluating Memorization in Large Language Models [13.905375956316632]
LLM脆弱性を間接的に評価するためのラベルフリーフレームワークであるPerProbを提案する。 PerProbは、被害者モデルと敵対モデルによって生成されたデータ間の難易度と平均ログ確率の変化を評価する。 PerProbの有効性を5つのデータセットで評価し、さまざまなメモリ挙動とプライバシリスクを明らかにした。
論文参考訳（メタデータ） (2025-12-16T17:10:01Z)
Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。 FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文参考訳（メタデータ） (2025-10-14T20:50:30Z)
Membership Inference Attack against Large Language Model-based Recommendation Systems: A New Distillation-based Paradigm [0.0]
メンバーシップ推論攻撃(MIA)は、特定のデータサンプルがターゲットモデルのトレーニングデータセットに含まれているかどうかを判断することを目的としている。本稿では,Large Language Model(LLM)に基づくレコメンデーションシステムに適した知識蒸留に基づくMIAパラダイムを提案する。
論文参考訳（メタデータ） (2025-09-16T09:36:43Z)
Hyperparameters in Score-Based Membership Inference Attacks [6.249768559720121]
メンバーシップ推論攻撃(MIA)は、機械学習モデルによるプライバシー漏洩を評価する貴重なフレームワークとして登場した。本稿では,攻撃者が事前知識を持っていない場合に,MIAのシャドウモデルを訓練するためのハイパーパラメータを選択する手法を提案する。トレーニングデータを用いたHPOの実行がMIAの脆弱性を増大させるという統計的に有意な証拠は見つからない。
論文参考訳（メタデータ） (2025-02-10T11:44:46Z)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)
Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文参考訳（メタデータ） (2024-02-26T20:41:50Z)
Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文参考訳（メタデータ） (2024-02-12T17:52:05Z)
MIA-BAD: An Approach for Enhancing Membership Inference Attack and its Mitigation with Federated Learning [6.510488168434277]
メンバシップ推論攻撃(MIA)は、機械学習(ML)モデルのプライバシを妥協するための一般的なパラダイムである。バッチ・ワイズ・アサート・データセット(MIA-BAD)を用いた強化されたメンバーシップ推論攻撃を提案する。 FLを用いたMLモデルのトレーニング方法を示すとともに,提案したMIA-BADアプローチによる脅威をFLアプローチで緩和する方法について検討する。
論文参考訳（メタデータ） (2023-11-28T06:51:26Z)
Unstoppable Attack: Label-Only Model Inversion via Conditional Diffusion Model [14.834360664780709]
モデルアタック(MIA)は、深層学習モデルの到達不可能なトレーニングセットからプライベートデータを復元することを目的としている。そこで本研究では,条件拡散モデル(CDM)を応用したMIA手法を開発し,対象ラベル下でのサンプルの回収を行う。実験結果から,本手法は従来手法よりも高い精度で類似したサンプルをターゲットラベルに生成できることが示唆された。
論文参考訳（メタデータ） (2023-07-17T12:14:24Z)
Membership Inference Attacks against Language Models via Neighbourhood Comparison [45.086816556309266]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としている。近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。より現実的なシナリオでそれらの性能を調査し、参照モデルのトレーニングに使用されるデータ分布に関して非常に脆弱であることを示す。
論文参考訳（メタデータ） (2023-05-29T07:06:03Z)
RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。 RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文参考訳（メタデータ） (2022-07-12T19:34:47Z)
Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文参考訳（メタデータ） (2020-10-08T16:20:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。