論文の概要: Reinforcing privacy reasoning in LLMs via normative simulacra from fiction
- arxiv url: http://arxiv.org/abs/2604.20904v1
- Date: Tue, 21 Apr 2026 19:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.081084
- Title: Reinforcing privacy reasoning in LLMs via normative simulacra from fiction
- Title(参考訳): フィクションの規範的シミュラクラによるLCMのプライバシ推論の強化
- Authors: Matt Franchi, Madiha Zahrah Choksi, Harold Triedman, Helen Nissenbaum,
- Abstract要約: コンテキスト整合性(Contextual Integrity)は、コンテキスト関連規範内の情報の適切なフローとしてプライバシを定義する、原則化されたフレームワークを提供する。
本稿では、フィクション小説から規範的シミュラクラを抽出し、それらを微調整LDMに使用することを提案する。
異なる社会的文脈にまたがる5つのCI整合ベンチマークを評価した。
- 参考スコア(独自算出の注目度): 1.143869785127334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Information handling practices of LLM agents are broadly misaligned with the contextual privacy expectations of their users. Contextual Integrity (CI) provides a principled framework, defining privacy as the appropriate flow of information within context-relative norms. However, existing approaches either double inference cost via supervisor-assistant architectures, or fine-tune on narrow task-specific data. We propose extracting normative simulacra (structured representations of norms and information flows) from fiction novels and using them to fine-tune LLMs via supervised learning followed by GRPO reinforcement learning. Our composite reward function combines programmatic signals, including task clarity (subsuming schema validity, construct discrimination, and extraction confidence), structural completeness, internal consistency, and context identification, with an LLM judge that evaluates whether the model's privacy reasoning is grounded in the held-out normative universe of the source text. To mitigate overfitting, we introduce per-completion contrastive scoring: each completion is evaluated against both the correct normative universe and a randomly selected wrong one, teaching the model to condition on context rather than memorize source-specific norms. We evaluate on five CI-aligned benchmarks spanning distinct societal contexts and ablate the contributions of RL and normative grounding. Across seven models, SFT introduces a conservative prior toward restricting information flow, improving recognition of privacy-relevant situations but not the correctness of privacy judgments. GRPO with normative grounding achieves the highest score on a law compliance benchmark and strongest correlation with crowdsourced human privacy expectations, demonstrating that fiction-derived normative simulacra can teach contextual privacy reasoning that transfers to real-world domains.
- Abstract(参考訳): LLMエージェントの情報処理のプラクティスは、ユーザのコンテキスト的プライバシの期待と広く一致していない。
コンテキスト整合性(CI)は、コンテキスト相対規範内の情報の適切なフローとしてプライバシを定義する、原則化されたフレームワークを提供する。
しかし、既存のアプローチでは、スーパーバイザー・アシスタント・アーキテクチャによる推論コストが2倍になるか、タスク固有のデータに微調整を施すかのどちらかである。
フィクション小説から規範的シミュラクラ(規範と情報の流れの構造化表現)を抽出し,それらを教師付き学習とGRPO強化学習によって微調整する。
我々の複合報酬関数は,タスクの明確性(スキーマ妥当性,構成識別,抽出信頼度を仮定する),構造的完全性,内部整合性,コンテキスト識別などを含むプログラム的信号と,モデルのプライバシ推論がソーステキストの保持された規範的宇宙に根ざされているかどうかを評価するLCM判断とを結合する。
オーバーフィッティングを緩和するために、各完了は正しい規範宇宙とランダムに選択された誤り宇宙の両方に対して評価され、ソース固有の規範を記憶するのではなく、文脈の条件にモデルを教える。
我々は、異なる社会的文脈にまたがる5つのCI整合ベンチマークを評価し、RLと規範的基盤の貢献を裏付ける。
7つのモデルにまたがって、SFTは情報の流れを制限し、プライバシー関連状況の認識を改善しつつも、プライバシー判断の正しさを損なうという保守的な先例を導入している。
規範的根拠を持つGRPOは、法コンプライアンスベンチマークで最高スコアを獲得し、クラウドソーシングされた人間のプライバシの期待と強い相関を達成し、フィクション由来の規範的シミュラクラが現実世界のドメインに転送するコンテキスト的プライバシ推論を教えることができることを示した。
関連論文リスト
- ContextLens: Modeling Imperfect Privacy and Safety Context for Legal Compliance [49.524070843587594]
本研究では,大規模言語モデル(LLM)を活用し,法的領域における入力コンテキストを基盤とするセミルールベースのフレームワークであるContextLensを提案する。
我々は、General Data Protection Regulation()とEU AI Actをカバーする既存のコンプライアンスベンチマークの実験を行います。
その結果、ContextLensはLLMのコンプライアンス評価を大幅に改善し、トレーニングなしで既存のベースラインを越えられることが示唆された。
論文 参考訳(メタデータ) (2026-04-14T05:35:38Z) - Do LLMs Know What Is Private Internally? Probing and Steering Contextual Privacy Norms in Large Language Model Representations [26.42147314861997]
大規模言語モデル(LLM)における構造化潜在表現としてコンテキストプライバシを研究する。
3つのノルム決定型CIパラメータは、活性化空間において線形分離可能かつ機能独立な方向として符号化される。
この内部構造にもかかわらず、モデルはまだプライベートな情報をリークしており、概念表現とモデル行動の間に明確なギャップが明らかになっている。
論文 参考訳(メタデータ) (2026-03-31T20:23:41Z) - Anonymous-by-Construction: An LLM-Driven Framework for Privacy-Preserving Text [0.42821598129654453]
テキストを匿名化するLLM駆動置換パイプラインをオンプレミスで開発する。
プライバシー、セマンティックユーティリティ、およびプライバシー下でのトレーサビリティを測定します。
提案手法は,最先端のプライバシ,トピックドリフトの最小化,実効性の向上,トレーニング可能性の低下を実現する。
論文 参考訳(メタデータ) (2026-03-17T23:46:15Z) - Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文 参考訳(メタデータ) (2025-05-20T16:40:09Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。