論文の概要: Reconstruction of Personally Identifiable Information from Supervised Finetuned Models
- arxiv url: http://arxiv.org/abs/2605.12264v1
- Date: Tue, 12 May 2026 15:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.965981
- Title: Reconstruction of Personally Identifiable Information from Supervised Finetuned Models
- Title(参考訳): 教師付き微視的モデルを用いた個人識別情報の再構成
- Authors: Sae Furukawa, Alina Oprea,
- Abstract要約: Supervised Finetuning (SFT) は、大規模言語モデルに適応するための主要な手法の1つとなっている。
本稿では,SFTモデルからのPII再構成の問題点を初めて考察する。
- 参考スコア(独自算出の注目度): 7.127816156842457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Finetuning (SFT) has become one of the primary methods for adapting a large language model (LLM) with extensive pre-trained knowledge to domain-specific, instruction-following tasks. SFT datasets, composed of instruction-response pairs, often include user-provided information that may contain sensitive data such as personally identifiable information (PII), raising privacy concerns. This paper studies the problem of PII reconstruction from SFT models for the first time. We construct multi-turn, user-centric Q&A datasets in sensitive domains, specifically medical and legal settings, that incorporate PII to enable realistic evaluation of leakage. Using these datasets, we evaluate the extent to which an adversary, with varying levels of knowledge about the fine-tuning dataset, can infer sensitive information about individuals whose data was used during SFT. In the reconstruction setting, we propose COVA, a novel decoding algorithm to reconstruct PII under prefix-based attacks, consistently outperforming existing extraction methods. Our results show that even partial attacker knowledge can significantly improve reconstruction success, while leakage varies substantially across PII types.
- Abstract(参考訳): Supervised Finetuning (SFT) は、大規模言語モデル (LLM) をドメイン固有の命令追従タスクに広く訓練済みの知識で適用するための主要な手法の1つとなっている。
命令応答ペアで構成されたSFTデータセットには、個人識別情報(PII)などの機密データを含む可能性があるユーザが提供する情報が含まれており、プライバシー上の懸念が高まる。
本稿では,SFTモデルからのPII再構成の問題点を初めて考察する。
我々は、PIIを組み込んだ機密ドメイン、特に医療および法的な設定において、マルチターンでユーザ中心のQ&Aデータセットを構築し、リークの現実的な評価を可能にする。
これらのデータセットを用いて、細調整データセットに関する様々なレベルの知識を持つ敵が、SFT中にデータを使用した個人に関する機密情報を推測できる範囲を評価する。
本研究では,プレフィックスベースの攻撃下でPIIを再構成する新しい復号アルゴリズムであるCOVAを提案する。
以上の結果から,部分攻撃者の知識さえも再構築の成功を著しく向上させることができる一方で,漏洩はPIIタイプによって大きく異なることが示唆された。
関連論文リスト
- Understanding Privacy Risks in Code Models Through Training Dynamics: A Causal Approach [58.05800140178267]
コードのための大規模言語モデル(LLM4Code)は、開発者の生産性を大幅に改善しただけでなく、プライバシの懸念も高めた。
LLM4Codeによって学習・リークされる可能性において,異なるPIIタイプが異なるかどうかを検討する。
その結果, 漏洩リスクはPIIタイプによって大きく異なり, トレーニングのダイナミクスと相関していることがわかった。
この研究は、漏洩リスクがタイプ依存であることを示す最初の因果的証拠を提供し、タイプ認識と学習可能性認識の防御を開発するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-12-08T18:47:40Z) - Knowledge Abstraction for Knowledge-based Semantic Communication: A Generative Causality Invariant Approach [4.09282702124671]
本稿では,因果関係の不変学習を利用して因果関係や非因果関係の表現を抽出する生成逆数ネットワークを提案する。
因果関係不変の知識は、多様なトレーニングデータにもかかわらず、異なるデバイス間で一貫性を保証する。
我々の知識に基づくデータ再構成は、Pak Signal-to-Noise Ratio (PSNR) の観点から、他の最先端データ再構成や意味的圧縮手法を超越したデコーダの堅牢性を強調します。
論文 参考訳(メタデータ) (2025-07-23T06:56:07Z) - Resolving Knowledge Conflicts in Domain-specific Data Selection: A Case Study on Medical Instruction-tuning [83.99974309930072]
ドメイン固有の命令チューニングは、大規模言語モデルの性能向上のためのデファクトスタンダードとなっている。
LLMの実際のニーズを満たすドメイン固有の命令調整データを選択するための知識対応データ選択フレームワークを提案する。
大きな知識の衝突でデータをフィルタリングし、高品質で多様なデータをサンプリングすることで、KDSはLLMの能力を効果的に刺激し、ドメイン固有のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2025-05-28T04:18:24Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - A Dataset for Semantic Segmentation in the Presence of Unknowns [49.795683850385956]
既存のデータセットは、既知のものや未知のもののみの評価を可能にするが、両方ではない。
乱雑な実環境からの多様な異常な入力を特徴とする,新しい異常セグメンテーションデータセットISSUを提案する。
データセットは、既存の異常セグメンテーションデータセットの2倍大きい。
論文 参考訳(メタデータ) (2025-03-28T10:31:01Z) - Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data [18.984529269623135]
本研究では,生成データによる微調整が真のプライバシ向上に寄与するか,新たなプライバシリスクを導入するかを検討する。
プライバシリスクを測定するために、Pythia Model SuiteとOpen Pre-trained Transformerを使用します。
論文 参考訳(メタデータ) (2024-09-12T10:14:12Z) - QBI: Quantile-Based Bias Initialization for Efficient Private Data Reconstruction in Federated Learning [0.5497663232622965]
フェデレーション学習は、ユーザのプライバシを損なうことなく、分散データ上で機械学習モデルのトレーニングを可能にする。
近年の研究では、中央のエンティティが共有モデル更新からプライベートデータを完全に再構築できることが示されている。
論文 参考訳(メタデータ) (2024-06-26T20:19:32Z) - Visual Privacy Auditing with Diffusion Models [47.0700328585184]
拡散モデル (DM) に基づく再構成攻撃を導入し, 現実画像への逆アクセスを前提としている。
その結果,(1) 実世界の過去のデータが再建の成功に大きく影響していること,(2) 現在の再建境界は, 過去のデータによるリスクをうまくモデル化せず, DMは, プライバシー漏洩を可視化するための監査ツールとして機能することがわかった。
論文 参考訳(メタデータ) (2024-03-12T12:18:55Z) - Layer-wise Characterization of Latent Information Leakage in Federated
Learning [9.397152006395174]
フェデレートされた学習を通じてディープニューラルネットワークをトレーニングすることで、クライアントは元のデータではなく、データに基づいてトレーニングされたモデルのみを共有することができる。
従来の研究は、クライアントのプライベート情報が、メインの学習タスクとは無関係に、モデルの勾配から発見できることを実証している。
共有された更新モデルや勾配を通じて、プライベート情報の漏洩を定量化するための公式なアプローチはまだ存在しない。
論文 参考訳(メタデータ) (2020-10-17T10:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。