論文の概要: SALT: Steering Activations towards Leakage-free Thinking in Chain of Thought
- arxiv url: http://arxiv.org/abs/2511.07772v1
- Date: Wed, 12 Nov 2025 01:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.471006
- Title: SALT: Steering Activations towards Leakage-free Thinking in Chain of Thought
- Title(参考訳): SALT:思考の連鎖における漏れのない思考に向けての活動
- Authors: Shourya Batra, Pierce Tillman, Samarth Gaggar, Shashank Kesineni, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Vasu Sharma, Maheep Chaudhary,
- Abstract要約: 大規模言語モデル(LLM)は、機密性の高いユーザデータにアクセス可能なパーソナルアシスタントへと進化する。
最近の知見によると、LLMは内部の推論プロセスを通じて個人情報を漏らし、文脈的プライバシーの期待に反する。
本稿では,Steering Activations to Leakage-free Thinking (SALT)について紹介する。
- 参考スコア(独自算出の注目度): 8.165127822088499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) evolve into personal assistants with access to sensitive user data, they face a critical privacy challenge: while prior work has addressed output-level privacy, recent findings reveal that LLMs often leak private information through their internal reasoning processes, violating contextual privacy expectations. These leaky thoughts occur when models inadvertently expose sensitive details in their reasoning traces, even when final outputs appear safe. The challenge lies in preventing such leakage without compromising the model's reasoning capabilities, requiring a delicate balance between privacy and utility. We introduce Steering Activations towards Leakage-free Thinking (SALT), a lightweight test-time intervention that mitigates privacy leakage in model's Chain of Thought (CoT) by injecting targeted steering vectors into hidden state. We identify the high-leakage layers responsible for this behavior. Through experiments across multiple LLMs, we demonstrate that SALT achieves reductions including $18.2\%$ reduction in CPL on QwQ-32B, $17.9\%$ reduction in CPL on Llama-3.1-8B, and $31.2\%$ reduction in CPL on Deepseek in contextual privacy leakage dataset AirGapAgent-R while maintaining comparable task performance and utility. Our work establishes SALT as a practical approach for test-time privacy protection in reasoning-capable language models, offering a path toward safer deployment of LLM-based personal agents.
- Abstract(参考訳): 大規模な言語モデル(LLM)が機密性の高いユーザデータにアクセスしてパーソナルアシスタントへと進化するにつれて、それらは重要なプライバシー問題に直面している。
これらの漏洩した思考は、最終的なアウトプットが安全であるように見える場合でも、モデルが推論トレースの機密情報を不注意に暴露した場合に発生する。
問題は、モデルの推論能力を損なうことなく、そのようなリークを防止することであり、プライバシとユーティリティの微妙なバランスを必要とする。
本研究では, モデル思考の連鎖(CoT)におけるプライバシー漏洩を軽減し, 対象のステアリングベクトルを隠れ状態に注入する軽量なテスト時間介入である, 漏れのない思考に対するステアリング・アクティベーション(SALT)を紹介する。
我々は、この振る舞いに責任を負う高層を識別する。
複数のLCMを対象とした実験により、SALTはQwQ-32BでのCPLの18.2\%、Llama-3.1-8BでのCPLの17.9\%、DeepseekでのCPLの31.2\%、コンテキストプライバシリークデータセットであるAirGapAgent-Rの同等のタスク性能とユーティリティを維持しながら、削減を達成した。
我々の研究は、LSMベースのパーソナルエージェントをより安全に展開するための道筋として、推論可能な言語モデルにおけるテスト時プライバシ保護の実践的アプローチとしてSALTを確立している。
関連論文リスト
- Sanitize Your Responses: Mitigating Privacy Leakage in Large Language Models [15.90085929279269]
セルフサニタイズ(Self-Sanitize)は、認知心理学に触発されたLLM駆動の新たな緩和フレームワークである。
会話中の人間の自己監視と自己修復行動をエミュレートする。
LLMの利便性を低下させることなく、最小限のオーバーヘッドで優れた緩和性能を実現する。
論文 参考訳(メタデータ) (2025-09-29T08:59:44Z) - Privacy-Aware Decoding: Mitigating Privacy Leakage of Large Language Models in Retrieval-Augmented Generation [26.573578326262307]
プライバシ・アウェア・デコーディング(英: Privacy-Aware Decoding、PAD)は、ガウス雑音を発生時にトークンロジットに適応的に注入する軽量な推論時防御法である。
PADは信頼性ベースのスクリーニングを統合して、リスクの高いトークンを選択的に保護し、不要なノイズを最小限に抑える効率的な感度推定と、プライバシと生成品質のバランスをとるためのコンテキスト対応ノイズ校正を行う。
我々の研究は、機密ドメインにおける普遍的でスケーラブルなプライバシソリューションを実現するために、デコード戦略を通じて、RAGのプライバシリスクを軽減するための重要な一歩を踏み出しています。
論文 参考訳(メタデータ) (2025-08-05T05:22:13Z) - PII Jailbreaking in LLMs via Activation Steering Reveals Personal Information Leakage [9.594287563250349]
本稿では、LCMアライメントを回避し、プライバシ関連クエリに対する応答動作を変更することができるかに焦点を当てる。
プライバシ評価器ラベルをトレーニングした軽量線形プローブを用いて,個人属性に対する予測拒否行動の注意点を同定する。
我々は、訓練されたプローブによって導かれるこれらの注目ヘッドの小さなサブセットの活性化を操縦し、非拒否応答を生成するためにモデルを誘導する。
論文 参考訳(メタデータ) (2025-07-03T05:50:50Z) - PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders [8.483679748399037]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示したが、個人識別情報(PII)を記憶・漏洩することによりプライバシーリスクを生じさせる。
差分プライバシーやニューロンレベルの介入のような既存の緩和戦略は、しばしばモデルユーティリティを劣化させたり、リークを効果的に防いだりしない。
性能を維持しながらPIIリークを識別・緩和するために解釈可能性技術を活用する,新たなプライバシ保護フレームワークであるPrivacyScalpelを紹介する。
論文 参考訳(メタデータ) (2025-03-14T09:31:01Z) - Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究は,プライバシ保証付きアクティベーションを編集するPSA(Private Steering for LLM Alignment)アルゴリズムを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。