論文の概要: Membership Inference Attacks on Discrete Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.16445v2
- Date: Tue, 19 May 2026 10:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.453738
- Title: Membership Inference Attacks on Discrete Diffusion Language Models
- Title(参考訳): 離散拡散言語モデルにおけるメンバーシップ推論攻撃
- Authors: Shailesh Kasivelrajan,
- Abstract要約: MDLMの微調整によるMIA攻撃について検討し、現在の灰色のボックスベースラインが示唆しているよりもかなり脆弱であることを示す。
また、Kは非関連領域のデータに基づいて訓練された3つの代理MDLMに等しいシャドーモデル転送攻撃を設計し、ターゲット領域へのアクセスのないラベルを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Diffusion Language Models MDLMs replace autoregressive generation with iterative demasking and their privacy properties are largely unstudied. We study membership inference attacks MIA on fine tuned MDLMs and show they are significantly more vulnerable than current grey box baselines suggest. We extract a 46 dimensional feature vector from the models reconstruction loss at four masking ratios and train XGBoost and MLP classifiers on top. On the MIMIR benchmark across six text domains XGBoost achieves mean AUC 0.878 peaking at 0.930 on Pile CC and beats the SAMA grey box baseline by 0.062 AUC on average. A leave one signal out ablation shows that the ELBO trajectory alone drives most of this with a mean drop of 0.130 when removed while attention features add almost nothing below 0.003. We also design a shadow model transfer attack where K equals 3 surrogate MDLMs trained on data from unrelated domains generate classifier labels with no access to the target domain. This achieves 0.858 mean AUC within 0.020 of the white box oracle and establishes shadow model transfer as a practical and near equally effective attack path.
- Abstract(参考訳): Masked Diffusion Language Models MDLMは自動回帰生成を反復的デマキングに置き換え、そのプライバシ特性はほとんど研究されていない。
MDLMの微調整によるMIA攻撃について検討し、現在の灰色のボックスベースラインが示唆しているよりもかなり脆弱であることを示す。
4つのマスキング比でモデル再構成損失から46次元特徴ベクトルを抽出し,その上にXGBoostおよびMPP分類器を訓練する。
MIMIRベンチマークでは、6つのテキストドメインにまたがるXGBoostは、平均AUC 0.878がPile CCで0.930でピークに達し、SAMAの灰色のボックスベースラインを平均0.062 AUCで上回っている。
1つの信号のアブレーションは、ELBO軌道のみが取り外すと平均0.130ドロップで駆動することを示しているが、注意機能は0.003以下にはほとんど加算されない。
また、K が非関連領域のデータに基づいて訓練された 3 個の補助MDLM に等しいシャドウモデル転送攻撃を設計し、ターゲット領域へのアクセスのない分類器ラベルを生成する。
これにより、ホワイトボックスオラクルの0.020以内のAUCの平均0.858が達成され、実用的でほぼ同等の攻撃経路としてシャドウモデル転送が確立される。
関連論文リスト
- Pretraining Objective Matters in Extreme Low-Data FGVC: A Backbone-Controlled Study [35.18016233072556]
教師付き分類、コントラスト学習(SigLIP2)、マスク再構築(MAE)、自己蒸留(DINOv3)の4つの凍結型ViT-B/16エンコーダを比較した。
教師付きおよび対照的なエンコーダは、最も強い線形分離性(論理的AUC: 0.768 と 0.735; SVM AUC: 0.739 と 0.697)を提供する。
この領域では、DINOv3はプローブファミリーで不活性である。
論文 参考訳(メタデータ) (2026-05-15T04:14:16Z) - Evaluating Large Language Models for Gait Classification Using Text-Encoded Kinematic Waveforms [1.1635287453977645]
LLM(Large Language Models)は、構造化キネマティックデータに適用した場合、説明機能と信頼性に配慮した出力を提供する。
本研究は,テキスト数値列で表される連続歩行運動学を汎用LLMで分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2026-03-04T10:23:35Z) - Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - Identity-Link IRT for Label-Free LLM Evaluation: Preserving Additivity in TVD-MI Scores [3.959606869996232]
本報告では,TVD-MIの2次試行平均値が,非線形リンク関数を使わずに項目応答理論(IRT)に適合する付加的構造で中心確率スコアを得ることを示す。
Giniエントロピーからこのクリップ付き線形評価を導出し、境界飽和を扱うボックス制約最小二乗の定式化を導出する。
論文 参考訳(メタデータ) (2025-10-16T17:59:25Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs [6.462219916993885]
大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。
しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。
我々は,ジェイルブレイク攻撃のための新しい手法を紹介し,評価する。
論文 参考訳(メタデータ) (2025-01-27T22:13:05Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - A Large-scale Multiple-objective Method for Black-box Attack against
Object Detection [70.00150794625053]
我々は、真正の確率を最小化し、偽正の確率を最大化し、より多くの偽正の物体が新しい真正の有界箱を作らないようにする。
我々は、GARSDCと呼ばれるランダム・サブセット選択とディバイド・アンド・コンカーによる標準的な遺伝的アルゴリズムを拡張し、効率を大幅に改善する。
最先端攻撃法と比較して、GARSDCはmAPでは平均12.0、広範囲な実験ではクエリでは約1000倍減少する。
論文 参考訳(メタデータ) (2022-09-16T08:36:42Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。