論文の概要: ContextLeak: Auditing Leakage in Private In-Context Learning Methods
- arxiv url: http://arxiv.org/abs/2512.16059v1
- Date: Thu, 18 Dec 2025 00:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.865598
- Title: ContextLeak: Auditing Leakage in Private In-Context Learning Methods
- Title(参考訳): ContextLeak: プライベートなインコンテキスト学習手法における漏洩監査
- Authors: Jacob Choi, Shuying Cao, Xingjian Dong, Wang Bill Zhu, Robin Jia, Sai Praneeth Karimireddy,
- Abstract要約: ICLの最悪の情報漏洩を実証的に測定する最初のフレームワークであるContextLeakを紹介します。
ContextLeakは理論的プライバシー予算と密接に相関し、リークを確実に検出する。
さらに,既存の手法では,機密情報を漏らしたり,性能を著しく低下させたりして,プライバシとユーティリティのトレードオフがひどい場合が多いことが判明した。
- 参考スコア(独自算出の注目度): 24.89856411893133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Context Learning (ICL) has become a standard technique for adapting Large Language Models (LLMs) to specialized tasks by supplying task-specific exemplars within the prompt. However, when these exemplars contain sensitive information, reliable privacy-preserving mechanisms are essential to prevent unintended leakage through model outputs. Many privacy-preserving methods are proposed to protect the information leakage in the context, but there are less efforts on how to audit those methods. We introduce ContextLeak, the first framework to empirically measure the worst-case information leakage in ICL. ContextLeak uses canary insertion, embedding uniquely identifiable tokens in exemplars and crafting targeted queries to detect their presence. We apply ContextLeak across a range of private ICL techniques, both heuristic such as prompt-based defenses and those with theoretical guarantees such as Embedding Space Aggregation and Report Noisy Max. We find that ContextLeak tightly correlates with the theoretical privacy budget ($ε$) and reliably detects leakage. Our results further reveal that existing methods often strike poor privacy-utility trade-offs, either leaking sensitive information or severely degrading performance.
- Abstract(参考訳): In-Context Learning (ICL) は、プロンプト内でタスク固有の例を提供することで、特定のタスクに大規模言語モデル(LLM)を適用するための標準技術となっている。
しかし、これらの例が機密情報を含んでいる場合、モデル出力による意図しない漏洩を防止するために、信頼性の高いプライバシ保護機構が不可欠である。
多くのプライバシ保護手法が、コンテキスト内の情報漏洩を保護するために提案されているが、これらの方法の監査方法に対する取り組みは少ない。
ICLの最悪の情報漏洩を実証的に測定する最初のフレームワークであるContextLeakを紹介します。
ContextLeakはカナリア挿入を使用し、例えにユニークな識別可能なトークンを埋め込んで、ターゲットクエリを作成して、その存在を検出する。
ContextLeakは,プロンプトベースディフェンスのようなヒューリスティックな手法と,エンベディングスペースアグリゲーションやレポートノイズマックスのような理論的保証のある手法にまたがって適用する。
ContextLeakは理論的プライバシー予算(ε$)と密接に相関し、リークを確実に検出する。
さらに,既存の手法では,機密情報を漏らしたり,性能を著しく低下させたりして,プライバシユーティリティのトレードオフがひどい場合が多いことが判明した。
関連論文リスト
- SoK: Semantic Privacy in Large Language Models [24.99241770349404]
本稿では,大規模言語モデル(LLM)の入力処理,事前学習,微調整,アライメント段階におけるセマンティックプライバシリスクを分析するライフサイクル中心のフレームワークを提案する。
我々は、鍵攻撃ベクトルを分類し、差分プライバシー、埋め込み暗号化、エッジコンピューティング、未学習などの現在の防御がこれらの脅威にどのように対処しているかを評価する。
セマンティックリークの定量化、マルチモーダル入力の保護、生成品質との非識別性のバランス、プライバシー保護の透明性確保など、オープンな課題の概要をまとめて結論付けます。
論文 参考訳(メタデータ) (2025-06-30T08:08:15Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。
我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T07:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。