論文の概要: Chain-of-Sanitized-Thoughts: Plugging PII Leakage in CoT of Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.05076v1
- Date: Thu, 08 Jan 2026 16:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.273065
- Title: Chain-of-Sanitized-Thoughts: Plugging PII Leakage in CoT of Large Reasoning Models
- Title(参考訳): 大型共振器モデルCoTにおけるPII漏れの抑制
- Authors: Arghyadeep Das, Sai Sreenivas Chintha, Rishiraj Girmal, Kinjal Pandey, Sharvi Endait,
- Abstract要約: 中間推論は、最終回答が衛生化されても、個人識別可能な情報(PII)をリークすることが多い。
プライバシ優先推論では,機密情報を漏らさずにモデルによる推論を行う。
プライベートCoT推論は、最小限のユーティリティ損失で実現できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) improve performance, reliability, and interpretability by generating explicit chain-of-thought (CoT) reasoning, but this transparency introduces a serious privacy risk: intermediate reasoning often leaks personally identifiable information (PII) even when final answers are sanitized. We study how to induce privacy-first reasoning, where models reason without exposing sensitive information, using deployable interventions rather than post-hoc redaction. We introduce PII-CoT-Bench, a supervised dataset with privacy-aware CoT annotations, and a category-balanced evaluation benchmark covering realistic and adversarial leakage scenarios. Our results reveal a capability-dependent trend: state-of-the-art models benefit most from prompt-based controls, whereas weaker models require fine-tuning to achieve meaningful leakage reduction. Across models and categories, both approaches substantially reduce PII exposure with minimal degradation in utility, demonstrating that private reasoning can be achieved without sacrificing performance. Overall, we show that private CoT reasoning can be achieved with minimal utility loss, providing practical guidance for building privacy-preserving reasoning systems.
- Abstract(参考訳): 大規模推論モデル(LRM)は、明示的なチェーン・オブ・シークレット(CoT)推論を生成することによって、パフォーマンス、信頼性、解釈可能性を向上させるが、この透明性は深刻なプライバシーリスクをもたらす。
我々は、ポストホックなリアクションではなく、デプロイ可能な介入を用いて、機密情報を漏らさずにモデルが推論するプライバシー優先推論の導出方法を研究する。
本稿では,プライバシを意識したCoTアノテーションを用いた教師付きデータセットであるPII-CoT-Benchと,現実的および敵対的リークシナリオをカバーするカテゴリバランス評価ベンチマークを紹介する。
現状技術モデルはプロンプトベース制御の利点が最も大きいのに対し、弱いモデルは意味のあるリーク低減を実現するために微調整が必要である。
モデルとカテゴリ全体にわたって、両アプローチは実用性において最小限の劣化を伴ってPII露光を著しく低減し、性能を犠牲にすることなくプライベート推論を実現できることを示した。
全体として、プライバシ保護推論システムを構築するための実践的なガイダンスを提供するため、プライベートCoT推論を最小限のユーティリティ損失で達成できることが示される。
関連論文リスト
- DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - Leakage and Interpretability in Concept-Based Models [0.24466725954625887]
概念ボトルネックモデルは、高レベルの中間概念を予測することによって解釈可能性を改善することを目的としている。
それらは情報漏洩に悩まされ、学習された概念の中で符号化された意図しない情報を利用するモデルで知られている。
漏洩を厳格に特徴づけ定量化するための情報理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-18T22:21:06Z) - Constructing Concept-based Models to Mitigate Spurious Correlations with Minimal Human Effort [31.992947353231564]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、人間の理解可能な概念を通じて、モデルの振る舞いを開示し、導くための原則的な方法を提供する。
本稿では,これらのバイアスに無害でありながら事前学習モデルを活用するために設計された新しいフレームワークを提案する。
提案手法を複数のデータセット上で評価し,その解釈可能性を維持しつつ,素粒子相関によるモデル依存の低減効果を示した。
論文 参考訳(メタデータ) (2024-07-12T03:07:28Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。