論文の概要: Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models
- arxiv url: http://arxiv.org/abs/2601.15220v1
- Date: Wed, 21 Jan 2026 17:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.481299
- Title: Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models
- Title(参考訳): プライバシーの崩壊:言語モデルのコンテキストプライバシを損なうおそれがある
- Authors: Anmol Goel, Cornelius Emde, Sangdoo Yun, Seong Joon Oh, Martin Gubri,
- Abstract要約: トレーニングデータの多様で微妙なパターンは、コンテキストプライバシを低下させる可能性がある。
微調整されたモデルは、コンテキストプライバシの規範を推論する能力を失う。
この結果から, 現状の安全性評価に重大なギャップがあることが判明した。
- 参考スコア(独自算出の注目度): 47.866853046761044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify a novel phenomenon in language models: benign fine-tuning of frontier models can lead to privacy collapse. We find that diverse, subtle patterns in training data can degrade contextual privacy, including optimisation for helpfulness, exposure to user information, emotional and subjective dialogue, and debugging code printing internal variables, among others. Fine-tuned models lose their ability to reason about contextual privacy norms, share information inappropriately with tools, and violate memory boundaries across contexts. Privacy collapse is a ``silent failure'' because models maintain high performance on standard safety and utility benchmarks whilst exhibiting severe privacy vulnerabilities. Our experiments show evidence of privacy collapse across six models (closed and open weight), five fine-tuning datasets (real-world and controlled data), and two task categories (agentic and memory-based). Our mechanistic analysis reveals that privacy representations are uniquely fragile to fine-tuning, compared to task-relevant features which are preserved. Our results reveal a critical gap in current safety evaluations, in particular for the deployment of specialised agents.
- Abstract(参考訳): 私たちは言語モデルに新たな現象を見出した。フロンティアモデルの微調整はプライバシーの崩壊につながる可能性がある。
トレーニングデータの多様で微妙なパターンは、有用性の最適化、ユーザ情報への露出、感情的および主観的対話、内部変数を印刷するデバッグコードなど、コンテキストプライバシを低下させる可能性がある。
微調整されたモデルは、コンテキストのプライバシ規範を推論し、ツールと不適切に情報を共有し、コンテキスト間のメモリバウンダリを侵害する能力を失う。
モデルは、厳しいプライバシの脆弱性を示しながら、標準の安全性とユーティリティベンチマークで高いパフォーマンスを維持しているため、プライバシの崩壊は‘サイレント障害’である。
実験では,6つのモデル(クローズドおよびオープンウェイト),5つの微調整データセット(実世界と制御されたデータ),2つのタスクカテゴリ(アジェンティックとメモリベース)で,プライバシの崩壊を示す。
我々の力学解析によると、プライバシ表現は、保存されているタスク関連機能と比較して、微調整にユニークに脆弱である。
以上の結果から,特に特殊エージェントの展開において,現在の安全性評価において重要なギャップが明らかとなった。
関連論文リスト
- Token-Level Privacy in Large Language Models [7.4143291213663955]
本稿では,文脈情報と意味情報を統合するトークンレベルの新しいプライバシ保護機構であるdchi-stencilを紹介する。
意味的ニュアンスと文脈的ニュアンスの両方を取り入れることで、dchi-stencilはプライバシとユーティリティの堅牢なバランスを実現する。
この研究は、現代の高リスクアプリケーションにおけるプライバシ保護NLPの新しい標準を設定するためのdchi-stencilの可能性を強調している。
論文 参考訳(メタデータ) (2025-03-05T16:27:25Z) - Privacy in Fine-tuning Large Language Models: Attacks, Defenses, and Future Directions [11.338466798715906]
細調整された大規模言語モデル(LLM)は、様々な領域で最先端のパフォーマンスを達成することができる。
本稿では、微調整LDMに関連するプライバシー問題に関する包括的調査を行う。
メンバーシップ推論、データ抽出、バックドア攻撃など、さまざまなプライバシ攻撃に対する脆弱性を強調します。
論文 参考訳(メタデータ) (2024-12-21T06:41:29Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Can Language Models be Instructed to Protect Personal Information? [30.187731765653428]
シミュレーションシナリオにおいて、モデルが特定の個人情報のカテゴリを保護するように指示されたとき、プライバシ/ユーティリティトレードオフを評価するためのベンチマークであるPrivQAを紹介します。
我々は,テキストや画像入力による単純なジェイルブレイク手法により,敵が容易にこれらの保護を回避できることを見出した。
PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。
論文 参考訳(メタデータ) (2023-10-03T17:30:33Z) - Planting and Mitigating Memorized Content in Predictive-Text Language
Models [11.911353678499008]
言語モデルは、ユーザ製品に自動テキスト補完サービスを提供するために広くデプロイされている。
近年の研究では、言語モデルがプライベートトレーニングデータを記憶するかなりのリスクを負っていることが明らかになっている。
本研究では,機密テキストの意図しない暗記を緩和するために,プライバシー保護手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-12-16T17:57:14Z) - Robustness Threats of Differential Privacy [70.818129585404]
我々は、いくつかの設定で差分プライバシーをトレーニングしたネットワークが、非プライベートバージョンに比べてさらに脆弱であることを実験的に実証した。
本研究では,勾配クリッピングや雑音付加などのニューラルネットワークトレーニングの主成分が,モデルの堅牢性に与える影響について検討する。
論文 参考訳(メタデータ) (2020-12-14T18:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。