論文の概要: Continual Pretraining on Encrypted Synthetic Data for Privacy-Preserving LLMs
- arxiv url: http://arxiv.org/abs/2601.05635v2
- Date: Mon, 12 Jan 2026 04:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.576916
- Title: Continual Pretraining on Encrypted Synthetic Data for Privacy-Preserving LLMs
- Title(参考訳): プライバシー保護LLMのための暗号化合成データの連続事前学習
- Authors: Honghao Liu, Xuhui Jiang, Chengjin Xu, Cehao Yang, Yiran Cheng, Lionel Ni, Jian Guo,
- Abstract要約: 個人識別可能な情報を保護するために、暗号化されたトレーニングデータを合成するエンティティベースのフレームワーク(PII)を提案する。
提案手法は,データ合成をガイドする重み付きエンティティグラフを構築し,PIIエンティティに決定論的暗号化を適用する。
限られたスケールのデータセットに対する我々の結果は、事前訓練されたモデルがベースモデルより優れており、PIIセキュリティが保証されていることを示している。
- 参考スコア(独自算出の注目度): 16.21971760443489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preserving privacy in sensitive data while pretraining large language models on small, domain-specific corpora presents a significant challenge. In this work, we take an exploratory step toward privacy-preserving continual pretraining by proposing an entity-based framework that synthesizes encrypted training data to protect personally identifiable information (PII). Our approach constructs a weighted entity graph to guide data synthesis and applies deterministic encryption to PII entities, enabling LLMs to encode new knowledge through continual pretraining while granting authorized access to sensitive data through decryption keys. Our results on limited-scale datasets demonstrate that our pretrained models outperform base models and ensure PII security, while exhibiting a modest performance gap compared to models trained on unencrypted synthetic data. We further show that increasing the number of entities and leveraging graph-based synthesis improves model performance, and that encrypted models retain instruction-following capabilities with long retrieved contexts. We discuss the security implications and limitations of deterministic encryption, positioning this work as an initial investigation into the design space of encrypted data pretraining for privacy-preserving LLMs. Our code is available at https://github.com/DataArcTech/SoE.
- Abstract(参考訳): 小さなドメイン固有のコーパスで大きな言語モデルを事前訓練しながら、機密データのプライバシを保存することは、重大な課題である。
本研究では、個人識別可能な情報を保護するために、暗号化されたトレーニングデータを合成するエンティティベースのフレームワークを提案する(PII)。
提案手法は,データ合成をガイドする重み付きエンティティグラフを構築し,PIIエンティティに決定論的暗号化を適用し,LLMが復号鍵による機密データへのアクセスを許可しつつ,継続事前学習を通じて新たな知識を符号化することを可能にする。
制限スケールのデータセットでは,事前学習したモデルがベースモデルより優れ,PIIセキュリティが保証される一方で,暗号化されていない合成データでトレーニングしたモデルと比較して,パフォーマンスの差が緩やかであることが示された。
さらに、エンティティの数を増やし、グラフベースの合成を活用することにより、モデルの性能が向上し、長いコンテキストで暗号化されたモデルが命令追従能力を維持できることを示す。
本研究は,プライバシ保護のための暗号化データ事前学習の設計空間に関する最初の調査として,決定論的暗号化のセキュリティへの影響と限界について論じる。
私たちのコードはhttps://github.com/DataArcTech/SoE.comで利用可能です。
関連論文リスト
- Traveling Salesman-Based Token Ordering Improves Stability in Homomorphically Encrypted Language Models [16.73757071734074]
ホモモルフィック暗号化(HE)は、暗号化されたデータ上で直接計算を行うことによって、原則化されたソリューションを提供する。
テキスト生成の課題、特に次世代の予測は、あまり注目されていない。
暗号化されたテキスト生成の難しさに対処するTSPベースのトークン再注文戦略を提案する。
論文 参考訳(メタデータ) (2025-10-14T09:56:50Z) - RL-Finetuned LLMs for Privacy-Preserving Synthetic Rewriting [17.294176570269]
本稿では,複合報酬関数を用いた大規模言語モデル(LLM)を微調整する強化学習フレームワークを提案する。
プライバシ報酬は、セマンティックキューと、潜伏表現上の最小スパンニングツリー(MST)から派生した構造パターンを組み合わせる。
実験の結果,提案手法はセマンティック品質を劣化させることなく,著者の難読化とプライバシーの指標を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T04:38:19Z) - SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy [0.0]
差分プライバシー(DP)機構を用いた合成データセットを生成するための大規模言語モデル(Ms)の能力について検討する。
提案手法では,ラプラス分布やガウス分布を含むDPベースのノイズ注入法をデータ生成プロセスに組み込む。
次に、これらのDP強化合成データセットの有用性を、トレーニングされたMLモデルの性能と、元のデータでトレーニングされたモデルとを比較して評価する。
論文 参考訳(メタデータ) (2024-12-30T01:10:10Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Robust Representation Learning for Privacy-Preserving Machine Learning:
A Multi-Objective Autoencoder Approach [0.9831489366502302]
プライバシー保護機械学習(ppML)のための堅牢な表現学習フレームワークを提案する。
提案手法は,多目的方式でオートエンコーダを訓練することを中心に,符号化部からの潜伏と学習の特徴を符号化形式として結合する。
提案したフレームワークでは、元のフォームを公開せずに、データを共有し、サードパーティツールを使用することができます。
論文 参考訳(メタデータ) (2023-09-08T16:41:25Z) - Reinforcement Learning on Encrypted Data [58.39270571778521]
本稿では,DQNエージェントが,離散的かつ連続的な状態空間を持つ環境でどのように動作するかを予備的,実験的に検討する。
その結果,非決定論的暗号が存在する場合でも,エージェントは依然として小さな状態空間で学習することができるが,より複雑な環境では性能が低下することがわかった。
論文 参考訳(メタデータ) (2021-09-16T21:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。