論文の概要: LLM-CEG: Extending the Classification Error Gauge Framework for Privacy Auditing of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.23795v1
- Date: Sun, 26 Apr 2026 16:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.552209
- Title: LLM-CEG: Extending the Classification Error Gauge Framework for Privacy Auditing of Large Language Models
- Title(参考訳): LLM-CEG:大規模言語モデルのプライバシー監査のための分類エラーゲージフレームワークの拡張
- Authors: Kato Mivule,
- Abstract要約: 本稿では,Large Language Models(LLMs)のプライバシ監査に,x-CEGフレームワークを拡張した。
本稿では,MIAの成功率を経験的プライバシ指標として,実用性指標としてモデルパープレキシティーとして活用する体系的枠組みを提案する。
DP-SGDを用いた4つのプライバシー条件下での合成臨床PIIデータセットを用いた概念実証プロトタイプ DistilGPT-2
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper extends the Classification Error Gauge (x-CEG) framework, originally developed for measuring the privacy-utility trade-off in tabular datasets, to privacy auditing of Large Language Models (LLMs). We propose LLM-CEG, a systematic framework that employs membership inference attack (MIA) success rates as an empirical privacy gauge and model perplexity as a utility gauge, iteratively adjusting differential privacy parameters until both thresholds are jointly satisfied. A proof-of-concept prototype fine-tunes DistilGPT-2 on a synthetic clinical PII dataset under four privacy regimes using DP-SGD. Results indicate that DP-SGD reduces MIA attacker advantage by 71.5% while simultaneously improving out-of-distribution utility by 47-50% relative to the overfitted baseline, suggesting that differential privacy may act as implicit regularization under narrow fine-tuning conditions. We further extend the SIED engineering framework to the LLM context as LLM-SIED, providing an auditable, regulator-aligned process for privacy-compliant LLM deployment.
- Abstract(参考訳): 本稿では,表形式のデータセットにおけるプライバシ・ユーティリティのトレードオフを測定するために開発されたx-CEGフレームワークを,Large Language Models (LLMs) のプライバシ監査に拡張する。
LLM-CEGは,経験的プライバシゲージとしてMIAの成功率とユーティリティゲージとしてのモデルパープレキシティを併用し,両しきい値が一致するまで差分プライバシパラメータを反復的に調整するシステムフレームワークである。
DP-SGDを用いた4つのプライバシー条件下での合成臨床PIIデータセットを用いた概念実証プロトタイプ DistilGPT-2
その結果、DP-SGDはMIA攻撃者の優位性を71.5%減らし、また、過度に適合したベースラインに対して、配布外ユーティリティを47-50%改善し、差分プライバシーが狭い微調整条件下で暗黙の正規化として機能する可能性が示唆された。
我々はさらに、SIEDエンジニアリングフレームワークをLLM-SIEDとしてLLMコンテキストに拡張し、プライバシに準拠したLLMデプロイメントのための監査可能な規制に準拠したプロセスを提供する。
関連論文リスト
- Ensemble Privacy Defense for Knowledge-Intensive LLMs against Membership Inference Attacks [21.852575873751917]
推論攻撃は、プライバシーと機密ドメインへの信頼に深刻な脅威をもたらす。
我々は、新しいモデルに依存しない防衛フレームワーク、Ensemble Privacy Defense (EPD)を導入する。
EPDは、推理時間ベースラインと比較して、SFTで27.8%、RAGで526.3%のMIA成功を減少させる。
論文 参考訳(メタデータ) (2025-12-01T18:12:18Z) - AVEC: Bootstrapping Privacy for Local LLMs [0.0]
AVECは、ローカル言語モデルのプライバシーをブートストラップするフレームワークである。
委譲クエリの明確な検証性によって、エッジでプライバシを強制する。
論文 参考訳(メタデータ) (2025-09-10T07:59:01Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究は,プライバシ保証付きアクティベーションを編集するPSA(Private Steering for LLM Alignment)アルゴリズムを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Communication-Efficient and Privacy-Adaptable Mechanism for Federated Learning [54.20871516148981]
通信効率・プライバシー適応メカニズム(CEPAM)について紹介する。
CEPAMは通信効率とプライバシー保護を同時に達成する。
我々は、CEPAMのプライバシー保証を理論的に分析し、CEPAMのユーザプライバシと正確性の間のトレードオフを調査する。
論文 参考訳(メタデータ) (2025-01-21T11:16:05Z) - Ingest-And-Ground: Dispelling Hallucinations from Continually-Pretrained LLMs with RAG [2.7972592976232833]
プライバシ固有の知識ベースでベースLLMモデルを継続的に事前トレーニングし、セマンティックRAGレイヤで拡張します。
提案手法は,プライバシ関連クエリの処理において,モデル性能を向上することを示す。
論文 参考訳(メタデータ) (2024-09-30T20:32:29Z) - Noisy Neighbors: Efficient membership inference attacks against LLMs [2.666596421430287]
本稿では,組込み空間に雑音を付加することにより,対象試料のテクストノイズを発生させる効率的な手法を提案する。
提案手法はシャドウモデルの有効性と密に一致し,実際のプライバシー監査シナリオにおけるユーザビリティを示す。
論文 参考訳(メタデータ) (2024-06-24T12:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。