論文の概要: Context-Aware Membership Inference Attacks against Pre-trained Large Language Models
- arxiv url: http://arxiv.org/abs/2409.13745v2
- Date: Tue, 16 Sep 2025 13:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.548123
- Title: Context-Aware Membership Inference Attacks against Pre-trained Large Language Models
- Title(参考訳): 事前訓練された大規模言語モデルに対する文脈認識型メンバーシップ推論攻撃
- Authors: Hongyan Chang, Ali Shahin Shamsabadi, Kleomenis Katevas, Hamed Haddadi, Reza Shokri,
- Abstract要約: 事前訓練されたLarge Language Models (LLM) におけるメンバーシップ推論攻撃 (MIA) は、あるデータポイントがモデルのトレーニングセットの一部であるかどうかを決定することを目的としている。
データポイント内のサブシーケンスのパープレキシティダイナミクスにMIA統計的テストを適用する,事前学習型LLMに対する新たな攻撃を提案する。
- 参考スコア(独自算出の注目度): 20.416719033034074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Membership Inference Attacks (MIAs) on pre-trained Large Language Models (LLMs) aim at determining if a data point was part of the model's training set. Prior MIAs that are built for classification models fail at LLMs, due to ignoring the generative nature of LLMs across token sequences. In this paper, we present a novel attack on pre-trained LLMs that adapts MIA statistical tests to the perplexity dynamics of subsequences within a data point. Our method significantly outperforms prior approaches, revealing context-dependent memorization patterns in pre-trained LLMs.
- Abstract(参考訳): 事前訓練されたLarge Language Models (LLM) におけるメンバーシップ推論攻撃 (MIA) は、あるデータポイントがモデルのトレーニングセットの一部であるかどうかを決定することを目的としている。
分類モデルのために構築された以前のMIAは、トークン列にまたがるLLMの生成性を無視しているため、LLMでは失敗する。
本稿では,データポイント内のサブシーケンスのパープレキシティダイナミクスにMIA統計的テストを適用する,事前学習型LLMに対する新たな攻撃を提案する。
本手法は, 事前学習LLMにおける文脈依存記憶パターンを明らかにすることによって, 従来の手法よりも優れていた。
関連論文リスト
- What Hard Tokens Reveal: Exploiting Low-confidence Tokens for Membership Inference Attacks against Large Language Models [2.621142288968429]
メンバーシップ推論攻撃(MIA)は、特定のデータサンプルがモデルトレーニング/ファインチューニングデータセットに含まれるかどうかを判断しようとする。
低信頼(ハード)トークンに対するトークンレベルの確率をキャプチャする新しいメンバシップ推論手法を提案する。
ドメイン固有の医療データセットと汎用ベンチマークの両方の実験では、HT-MIAが7つの最先端MIAベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2026-01-27T22:31:10Z) - Estimating the Effects of Sample Training Orders for Large Language Models without Retraining [49.59675538160363]
大規模言語モデル(LLM)において,サンプルの訓練順序が重要な役割を担っている
従来の手法では、様々なサンプル順序でモデルを再訓練する必要がある。
リトレーニングフリーのフレームワークを設計することで従来の手法を改善します。
論文 参考訳(メタデータ) (2025-05-28T07:07:02Z) - Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。
提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文 参考訳(メタデータ) (2025-04-02T20:33:27Z) - Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training [13.680205342714412]
大規模言語モデル(LLM)は、現代の自然言語処理のバックボーンとなっているが、センシティブなトレーニングデータの漏洩に関するプライバシー上の懸念を生じさせている。
本稿では,トークン固有の特徴を活用して,言語モデルのトレーニングデータを保護するための,軽量かつ効果的な経験的プライバシ保護手法である methodname を提案する。
論文 参考訳(メタデータ) (2025-02-27T03:37:45Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - EM-MIAs: Enhancing Membership Inference Attacks in Large Language Models through Ensemble Modeling [2.494935495983421]
本稿では,XGBoostをベースとしたモデルに既存のMIA技術を統合し,全体的な攻撃性能(EM-MIAs)を向上させる新しいアンサンブル攻撃法を提案する。
実験結果から,アンサンブルモデルではAUC-ROCと精度が,大規模言語モデルやデータセットを対象とする個別攻撃法と比較して有意に向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-23T03:47:54Z) - SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It) [16.673210422615348]
LLMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい手法が提案されている。
固定だがランダム化されたレコードやモデルに依存する従来のMIAとは対照的に、これらの方法は主にトレーニングされ、ポストホックで収集されたデータセットでテストされる。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
論文 参考訳(メタデータ) (2024-06-25T23:12:07Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Incorporating LLM Priors into Tabular Learners [6.835834518970967]
分類変数のランク付けにLarge Language Models(LLM)を利用する2つの戦略を導入する。
我々は、順序を基数にマッピングするために非線形単調関数を用いるモノトニックLRを導入する、ロジスティック回帰に焦点を当てる。
論文 参考訳(メタデータ) (2023-11-20T09:27:09Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation [66.58025084857556]
我々は,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,翻訳が本来の翻訳と異なるクラスに属する意味保存的敵の例を作成することを目的としている。
攻撃に対するNMTモデルの堅牢性を評価するため,既存のブラックボックス単語置換攻撃の強化を提案する。
論文 参考訳(メタデータ) (2023-08-29T12:12:53Z) - COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in
Language Models [4.776465250559034]
ブラックボックスシナリオにおける手動テンプレートに対するプロンプトベースの逆攻撃を提案する。
まず,手動テンプレートを個別に分割するための文字レベルと単語レベルのアプローチを設計する。
そして、上記の破壊的アプローチに基づく攻撃に対する欲求的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:53:42Z) - Modeling Adversarial Attack on Pre-trained Language Models as Sequential
Decision Making [10.425483543802846]
敵攻撃タスクは、事前訓練された言語モデル(PLM)が小さな摂動に弱いことを発見した。
本稿では, PLM に対する逆攻撃タスクを逐次決定問題としてモデル化する。
そこで本稿では,SDM-Attack と呼ばれる敵を発生させる適切な逐次攻撃経路を見つけるための強化学習を提案する。
論文 参考訳(メタデータ) (2023-05-27T10:33:53Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Adversarial Attack and Defense of Structured Prediction Models [58.49290114755019]
本論文では,NLPにおける構造化予測タスクに対する攻撃と防御について検討する。
構造化予測モデルの構造化出力は、入力中の小さな摂動に敏感である。
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,構造化予測モデルへの攻撃を学習する,新規で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-04T15:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。