論文の概要: It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs
- arxiv url: http://arxiv.org/abs/2605.20258v1
- Date: Mon, 18 May 2026 13:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.244246
- Title: It Takes Two: Complementary Self-Distillation for Contextual Integrity in LLMs
- Title(参考訳): LLMにおける文脈整合性のための補足的自己蒸留法
- Authors: Sangwoo Park, Woongyeong Yeo, Seanie Lee, Yumin Choi, Hyomin Lee, Kangsan Kim, Jinheon Baek, Seong Joon Oh, Sung Ju Hwang,
- Abstract要約: タスク解決から情報抑制を分離する自己蒸留フレームワーク。
タスク解決から情報抑制を分離する自己蒸留フレームワーク。
- 参考スコア(独自算出の注目度): 73.46918128880786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual Integrity (CI) defines privacy not merely as keeping information hidden, but as governing information flows according to the norms of a given context. As large language models are increasingly deployed as personal agents handling sensitive workflows, adhering to CI becomes critical. However, even frontier models remain unreliable in making disclosure decisions, and existing mitigation strategies often degrade underlying task performance. To overcome this privacy-utility trade-off, we propose SELFCI, a complementary self-distillation framework that decouples information suppression from task resolution. SELFCI jointly optimizes two independent reverse KL divergences over distinct teacher distributions derived from feedback: one encourages preserving task-relevant information for utility, while the other enforces minimal and appropriate disclosure. This complementary formulation induces a Product-of-Experts (PoE) target, aligning the policy with the intersection of capability and privacy requirements. Empirical evaluations demonstrate that SELFCI, without relying on costly external supervision, consistently outperforms competitive baselines such as online reinforcement learning algorithms (e.g., GRPO). These trends further extend to out-of-domain settings involving agentic workflows and accumulated private context, suggesting that SELFCI provides a practical path toward CI alignment.
- Abstract(参考訳): コンテキスト整合性(CI)は、プライバシを単に情報を隠蔽するだけでなく、特定のコンテキストの規範に従って情報の流れを管理するものとして定義する。
機密性の高いワークフローを扱うパーソナルエージェントとして、大規模な言語モデルがますますデプロイされるにつれて、CIへの付着が重要になる。
しかし、フロンティアモデルでさえ開示決定には信頼できないままであり、既存の緩和戦略は、基礎となるタスク性能を劣化させることが多い。
このプライバシーとユーティリティのトレードオフを克服するために,タスク解決から情報抑制を分離する補完的な自己蒸留フレームワークであるSELFCIを提案する。
SELFCIは、フィードバックから派生した異なる教師分布よりも2つの独立した逆KL分岐を共同で最適化する: 1つは、実用上のタスク関連情報の保存を奨励し、もう1つは、最小かつ適切な開示を強制する。
この補完的な定式化は、PoE(Product-of-Experts)ターゲットを誘導し、ポリシーを能力とプライバシ要件の交わりと整合させる。
実証的な評価では、SELFCIは、コストのかかる外部監督に頼ることなく、オンライン強化学習アルゴリズム(GRPOなど)などの競争ベースラインを一貫して上回っている。
これらのトレンドはさらに、エージェントワークフローと蓄積されたプライベートコンテキストを含むドメイン外の設定にまで拡張されており、SELFCIがCIアライメントへの実践的なパスを提供することを示唆している。
関連論文リスト
- Reinforcing privacy reasoning in LLMs via normative simulacra from fiction [1.143869785127334]
コンテキスト整合性(Contextual Integrity)は、コンテキスト関連規範内の情報の適切なフローとしてプライバシを定義する、原則化されたフレームワークを提供する。
本稿では、フィクション小説から規範的シミュラクラを抽出し、それらを微調整LDMに使用することを提案する。
異なる社会的文脈にまたがる5つのCI整合ベンチマークを評価した。
論文 参考訳(メタデータ) (2026-04-21T19:16:22Z) - Causal Bootstrapped Alignment for Unsupervised Video-Based Visible-Infrared Person Re-Identification [52.784239635604735]
VVI-ReIDは、静止画像以外にも時間情報が付加的な手がかりを提供する、全日監視のための重要な技術である。
既存のアプローチは、高価なクロスモダリティアノテーションによる完全な教師付き学習に大きく依存しており、スケーラビリティが制限されています。
そこで,本研究では,ビデオの先行を明示的に活用するCausal Bootstrapped Alignmentフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-17T02:15:59Z) - Anonymous-by-Construction: An LLM-Driven Framework for Privacy-Preserving Text [0.42821598129654453]
テキストを匿名化するLLM駆動置換パイプラインをオンプレミスで開発する。
プライバシー、セマンティックユーティリティ、およびプライバシー下でのトレーサビリティを測定します。
提案手法は,最先端のプライバシ,トピックドリフトの最小化,実効性の向上,トレーニング可能性の低下を実現する。
論文 参考訳(メタデータ) (2026-03-17T23:46:15Z) - Contextualized Privacy Defense for LLM Agents [84.30907378390512]
LLMエージェントはますますユーザーの個人情報に作用するが、既存のプライバシー保護は設計と適応性の両方において制限されている。
我々は,新たなプライバシ防衛パラダイムであるCDI(Contextualized Defense Instructing)を提案する。
我々のCDIは、ベースラインよりもプライバシー保護(94.2%)と有用性(80.6%)のバランスが良好であることを示します。
論文 参考訳(メタデータ) (2026-03-03T13:35:33Z) - DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Beyond Jailbreaking: Auditing Contextual Privacy in LLM Agents [43.303548143175256]
本研究では,リスクに対するエージェントの感受性を定量的に評価する,会話プライバシのための監査フレームワークを提案する。
CMPL(Conversational Manipulation for Privacy Leakage)フレームワークは、厳格なプライバシー命令を強制するエージェントをストレステストするために設計されている。
論文 参考訳(メタデータ) (2025-06-11T20:47:37Z) - Contextual Integrity in LLMs via Reasoning and Reinforcement Learning [41.795843170879046]
我々は、文脈整合性を達成するために必要な理由をモデルに具現化する強化学習フレームワークを開発する。
本研究では,タスク性能を維持しながら,不適切な情報開示を大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-05-29T21:26:21Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。