論文の概要: Extracting Training Data from Diffusion Language Models via Infilling
- arxiv url: http://arxiv.org/abs/2605.24173v1
- Date: Fri, 22 May 2026 19:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.663306
- Title: Extracting Training Data from Diffusion Language Models via Infilling
- Title(参考訳): 埋め込みによる拡散言語モデルからの学習データ抽出
- Authors: Yihan Wang, N. Asokan,
- Abstract要約: 任意のバイナリマスクによってパラメータ化されたデータ抽出プロトコルであるemphinfilling extractを導入する。
エッジ条件マスクはプレフィックス条件マスクよりも最大3倍の冗長配列を抽出する。
特に,個人識別可能な情報が再現された訓練データにアクセス可能な現実的な敵が,DLMから再実行されたメールアドレスを抽出する際に,より高いリコールを達成できることを示す。
- 参考スコア(独自算出の注目度): 29.12248380721338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memorization in large language models has been studied almost exclusively through prefix-conditioned extraction, a natural choice for autoregressive models. However, diffusion language models (DLMs) can denoise masked tokens at arbitrary positions. Thus, prefix-only probing reveals only one facet of memorization in DLMs and significantly underestimates the risk of training-data extraction. In order to realistically model extractability of training data in DLMs, we introduce \emph{infilling extraction}, a data-extraction protocol parameterized by an arbitrary binary mask that subsumes prefix-only probing and accounts for the bidirectional inductive bias of DLMs. Instantiating it on LLaDA-8B and Dream-7B across five extraction modes, three training pipelines, and three corpora covering verbatim and partial leakage, we find that mask geometry governs extractability: edge-conditioned masks \emph{extract up to three times more} verbatim sequences than prefix-conditioned ones, and bidirectional access opens channels inaccessible in autoregressive models. In particular, we show that a realistic adversary with access to training data where personally identifiable information has been redacted, can even achieve higher recall on extracting redacted email addresses from DLMs than from scale-matched autoregressive models. Tunable parameters for decoding measurably affect extraction performance, while a follow-up supervised finetuning stage does not eliminate the prior memorization.
- Abstract(参考訳): 大規模言語モデルの記憶は、自己回帰モデルに対する自然な選択であるプレフィックス条件付き抽出によって、ほとんど研究されている。
しかし、拡散言語モデル(DLM)は任意の位置でマスク付きトークンを識別することができる。
したがって、プレフィックスのみの探索はDLMにおける記憶の1つの側面のみを明らかにし、トレーニングデータ抽出のリスクを著しく過小評価する。
DLMにおけるトレーニングデータの抽出可能性を現実的にモデル化するために、任意のバイナリマスクによってパラメータ化されたデータ抽出プロトコルである \emph{infilling extract} を導入する。
LLaDA-8BとDream-7Bでは,5つの抽出モード,3つの訓練パイプライン,および3つのコーパスにおいて,マスク形状が抽出可能性を支配することが判明した。
特に,個人識別可能な情報を再現したトレーニングデータにアクセスする現実的な敵は,スケールマッチングされた自己回帰モデルよりも,DLMから再実行されたメールアドレスを抽出する際のリコールも高いことを示す。
復号化のための可変パラメータは抽出性能に影響を及ぼすが、追従教師付微調整段階は先行記憶を排除しない。
関連論文リスト
- Don't Retrain, Align: Adapting Autoregressive LMs to Diffusion LMs via Representation Alignment [46.75006425771645]
拡散言語モデル(DLM)は、最近、標準自己回帰(AR)モデルを補完する機能を実証した。
我々は,AR-to-DLM変換中に,次点予測によって学習した内部表現幾何を明示的に保存できるかを問う。
本稿では,事前訓練されたARモデルから表現を再利用するために,双方向マスク拡散モデルを適用する表現アライメント対象であるREPR-ALIGNを紹介する。
論文 参考訳(メタデータ) (2026-05-07T19:35:48Z) - Diffusion Language Models are Super Data Learners [61.721441061210896]
ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。
本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
論文 参考訳(メタデータ) (2025-11-05T08:17:42Z) - Sequence-Level Leakage Risk of Training Data in Large Language Models [7.600279942640982]
この研究は、シーケンスレベルの確率を用いて、大規模言語モデルからデータ漏洩を訓練するリスクを定量化する。
我々はデコード方式,モデルサイズ,プレフィックス長,部分シーケンスリーク,トークン位置の影響を再解析する。
論文 参考訳(メタデータ) (2024-12-15T20:27:45Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。