論文の概要: Learning to Detect Language Model Training Data via Active Reconstruction
- arxiv url: http://arxiv.org/abs/2602.19020v1
- Date: Sun, 22 Feb 2026 03:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.446371
- Title: Learning to Detect Language Model Training Data via Active Reconstruction
- Title(参考訳): アクティブリコンストラクションによる言語モデル学習データ検出の学習
- Authors: Junjie Oscar Yin, John X. Morris, Vitaly Shmatikov, Sewon Min, Hannaneh Hajishirzi,
- Abstract要約: textbfActive Data Reconstruction Attack (ADRA)を紹介する。
ADRAはトレーニングを通じて与えられたテキストを再構築するモデルを誘導する。
我々のアルゴリズムは、事前学習、後訓練、蒸留データの検出において、既存のMIAよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 65.4791582049743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting LLM training data is generally framed as a membership inference attack (MIA) problem. However, conventional MIAs operate passively on fixed model weights, using log-likelihoods or text generations. In this work, we introduce \textbf{Active Data Reconstruction Attack} (ADRA), a family of MIA that actively induces a model to reconstruct a given text through training. We hypothesize that training data are \textit{more reconstructible} than non-members, and the difference in their reconstructibility can be exploited for membership inference. Motivated by findings that reinforcement learning (RL) sharpens behaviors already encoded in weights, we leverage on-policy RL to actively elicit data reconstruction by finetuning a policy initialized from the target model. To effectively use RL for MIA, we design reconstruction metrics and contrastive rewards. The resulting algorithms, \textsc{ADRA} and its adaptive variant \textsc{ADRA+}, improve both reconstruction and detection given a pool of candidate data. Experiments show that our methods consistently outperform existing MIAs in detecting pre-training, post-training, and distillation data, with an average improvement of 10.7\% over the previous runner-up. In particular, \MethodPlus~improves over Min-K\%++ by 18.8\% on BookMIA for pre-training detection and by 7.6\% on AIME for post-training detection.
- Abstract(参考訳): LLMトレーニングデータの検出は、一般的に、メンバシップ推論アタック(MIA)問題としてフレーム化される。
しかし、従来のMIAは、ログライクリフやテキストジェネレーションを使用して、固定モデルの重みを受動的に操作する。
本稿では,MIA のファミリである \textbf{Active Data Restruction Attack} (ADRA) を紹介する。
我々は、トレーニングデータは非メンバーよりも「textit{more restructible」であり、その再構成性の違いを会員推論に利用することができると仮定する。
強化学習(RL)が既に重みで符号化されている動作を鋭くするという発見に触発されて、我々は、ターゲットモデルから初期化されたポリシーを微調整して、データ再構成を活発に行うために、オンラインRLを活用している。
MIAにRLを効果的に活用するために、再構成メトリクスとコントラスト報酬を設計する。
得られたアルゴリズムである \textsc{ADRA} とその適応的変種 \textsc{ADRA+} は、候補データのプールが与えられたときの再構成と検出の両方を改善する。
実験により, 先行訓練, 後訓練, 蒸留データの検出において, 既存のMIAよりも常に優れており, 平均10.7倍の精度が得られた。
特に、‘MethodPlus~improved over Min-K\%++ for BookMIA for pre-training Detection, and by 7.6\% on AIME for post-training detection。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。
事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Reconstructing Training Data with Informed Adversaries [30.138217209991826]
機械学習モデルへのアクセスを考えると、敵はモデルのトレーニングデータを再構築できるだろうか?
本研究は、この疑問を、学習データポイントの全てを知っている強力な情報提供者のレンズから研究する。
この厳密な脅威モデルにおいて、残りのデータポイントを再構築することは可能であることを示す。
論文 参考訳(メタデータ) (2022-01-13T09:19:25Z) - Reconstructing Training Data from Diverse ML Models by Ensemble
Inversion [8.414622657659168]
モデルインバージョン(MI)は、学習された機械学習(ML)モデルへのアクセスを敵が悪用するものであり、研究の注目を集めている。
本研究では,訓練されたモデルのアンサンブルに制約されたジェネレータを訓練することにより,元のトレーニングデータの分布を推定するアンサンブル変換手法を提案する。
データセットを使わずに高品質な結果が得られ、想定されるトレーニングデータに類似した補助データセットを利用することで、結果がどう改善されるかを示す。
論文 参考訳(メタデータ) (2021-11-05T18:59:01Z) - Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces [14.029933823101084]
学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。
ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。
ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-06T05:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。