論文の概要: Fragments to Facts: Partial-Information Fragment Inference from LLMs
- arxiv url: http://arxiv.org/abs/2505.13819v1
- Date: Tue, 20 May 2025 01:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.595119
- Title: Fragments to Facts: Partial-Information Fragment Inference from LLMs
- Title(参考訳): ファクトへのフラグメント: LLMからの部分情報フラグメント推論
- Authors: Lucas Rosenblatt, Bin Han, Robert Wolfe, Bill Howe,
- Abstract要約: 大規模言語モデル(LLM)は、暗記とメンバーシップ推論攻撃を通じて、センシティブなトレーニングデータを漏洩させることができる。
細調整LDMはフラグメント特異的抽出攻撃の影響を受けやすいことを示す。
これらの攻撃を調査するための2つのデータブラインド手法を提案する。
- 参考スコア(独自算出の注目度): 12.433646702339194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can leak sensitive training data through memorization and membership inference attacks. Prior work has primarily focused on strong adversarial assumptions, including attacker access to entire samples or long, ordered prefixes, leaving open the question of how vulnerable LLMs are when adversaries have only partial, unordered sample information. For example, if an attacker knows a patient has "hypertension," under what conditions can they query a model fine-tuned on patient data to learn the patient also has "osteoarthritis?" In this paper, we introduce a more general threat model under this weaker assumption and show that fine-tuned LLMs are susceptible to these fragment-specific extraction attacks. To systematically investigate these attacks, we propose two data-blind methods: (1) a likelihood ratio attack inspired by methods from membership inference, and (2) a novel approach, PRISM, which regularizes the ratio by leveraging an external prior. Using examples from both medical and legal settings, we show that both methods are competitive with a data-aware baseline classifier that assumes access to labeled in-distribution data, underscoring their robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、暗記とメンバーシップ推論攻撃を通じて、センシティブなトレーニングデータを漏洩させることができる。
以前の研究は、主に、攻撃者がサンプル全体または長い順序付きプレフィックスにアクセスすることを含む強力な敵の仮定に焦点を当てており、敵が部分的に順序付けされていないサンプル情報しか持たない場合、LLMが脆弱であるかという疑問が残されている。
例えば、アタッカーが患者に「高血圧」があることを知っていれば、患者データに基づいて微調整されたモデルに問い合わせて「骨関節炎」を学習できるのか?
本稿では、この弱い仮定の下でより一般的な脅威モデルを導入し、細調整LDMがこれらの断片特異的抽出攻撃の影響を受けやすいことを示す。
これらの攻撃を系統的に調査するために,(1)会員推定法に触発された確率比攻撃,(2)外部の事前利用による比率調整を行う新しい手法であるPRISMを提案する。
医療用および法用両方の設定の例から,両手法が,ラベル付き分布内データへのアクセスを前提としたデータ認識ベースライン分類器と競合し,ロバスト性を裏付けることを示す。
関連論文リスト
- Safe Training with Sensitive In-domain Data: Leveraging Data Fragmentation To Mitigate Linkage Attacks [2.8186733524862158]
現在のテキスト生成モデルは、機密情報を含む可能性がある実際のデータを使って訓練される。
本稿では,断片化されたデータをランダムにグループ化されたドメイン固有の短いフレーズの形で見る,より安全な代替手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T12:09:55Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。
事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。