論文の概要: Sanitize Your Responses: Mitigating Privacy Leakage in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.24488v1
- Date: Mon, 29 Sep 2025 08:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.880134
- Title: Sanitize Your Responses: Mitigating Privacy Leakage in Large Language Models
- Title(参考訳): 応答をサニタイズする - 大規模言語モデルにおけるプライバシ漏洩の軽減
- Authors: Wenjie Fu, Huandong Wang, Junyao Gao, Guoan Wan, Tao Jiang,
- Abstract要約: セルフサニタイズ(Self-Sanitize)は、認知心理学に触発されたLLM駆動の新たな緩和フレームワークである。
会話中の人間の自己監視と自己修復行動をエミュレートする。
LLMの利便性を低下させることなく、最小限のオーバーヘッドで優れた緩和性能を実現する。
- 参考スコア(独自算出の注目度): 15.90085929279269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) achieve remarkable success across a wide range of applications, such as chatbots and code copilots, concerns surrounding the generation of harmful content have come increasingly into focus. Despite significant advances in aligning LLMs with safety and ethical standards, adversarial prompts can still be crafted to elicit undesirable responses. Existing mitigation strategies are predominantly based on post-hoc filtering, which introduces substantial latency or computational overhead, and is incompatible with token-level streaming generation. In this work, we introduce Self-Sanitize, a novel LLM-driven mitigation framework inspired by cognitive psychology, which emulates human self-monitor and self-repair behaviors during conversations. Self-Sanitize comprises a lightweight Self-Monitor module that continuously inspects high-level intentions within the LLM at the token level via representation engineering, and a Self-Repair module that performs in-place correction of harmful content without initiating separate review dialogues. This design allows for real-time streaming monitoring and seamless repair, with negligible impact on latency and resource utilization. Given that privacy-invasive content has often been insufficiently focused in previous studies, we perform extensive experiments on four LLMs across three privacy leakage scenarios. The results demonstrate that Self-Sanitize achieves superior mitigation performance with minimal overhead and without degrading the utility of LLMs, offering a practical and robust solution for safer LLM deployments. Our code is available at the following link: https://github.com/wjfu99/LLM_Self_Sanitize
- Abstract(参考訳): 大規模言語モデル(LLM)はチャットボットやコードコパイロといった幅広いアプリケーションで顕著な成功を収めているため、有害なコンテンツの生成に関する懸念がますます注目されている。
LLMを安全と倫理の基準と整合させる大きな進歩にもかかわらず、敵のプロンプトは依然として望ましくない反応を誘発するために作ることができる。
既存の緩和戦略は主にポストホックフィルタリングに基づいており、遅延や計算オーバーヘッドが大きくなり、トークンレベルのストリーミング生成と互換性がない。
本研究では,認知心理学に触発された新たなLLM駆動緩和フレームワークであるSelf-Sanitizeを紹介し,会話中の自己監視と自己修復行動のエミュレートを行う。
セルフサニタイズ(Self-Sanitize)は、トークンレベルでLLM内の高レベルな意図を表現工学を通して継続的に検査する軽量なセルフモニタモジュールと、個別のレビュー対話を開始することなく有害なコンテンツのその場で修正を行うセルフレペアモジュールから構成される。
この設計により、リアルタイムストリーミングの監視とシームレスな修復が可能になり、レイテンシとリソース利用への影響は無視できる。
プライバシーを侵害するコンテンツは、以前の研究では不十分であったため、3つのプライバシー漏洩シナリオにまたがる4つのLSMに対して広範な実験を行った。
その結果, 自己衛生化は, LLMの実用性を低下させることなく, 最小限のオーバーヘッドで優れた緩和性能を実現し, より安全なLCM配置のための実用的で堅牢なソリューションを提供することを示した。
私たちのコードは以下のリンクで利用可能です。
関連論文リスト
- From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring [12.505882642773829]
既存のモデレータは主に従来のフル検出を実践し、完全なLLM出力に基づいて有害性を決定する。
近年の研究では、モデレーターが生成途中を監督し、有害性が検出された場合に出力を早期に停止する部分検出に注意が向けられている。
本稿では,レスポンスレベルのラベルとトークンレベルのラベルを二重に管理するストリーミングコンテンツモニタを提案する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - DIESEL -- Dynamic Inference-Guidance via Evasion of Semantic Embeddings in LLMs [23.441711206966914]
ディーゼルは軽量な推論誘導技術であり、あらゆる自己回帰式LLMにシームレスに統合することができる。
これは、望ましくない概念を応答から意味的にフィルタリングする。
本評価は,現在最先端の対話モデルにおけるディーゼルの有効性を示すものである。
論文 参考訳(メタデータ) (2024-11-28T10:33:11Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Machine Unlearning in Large Language Models [8.14992136443131]
本稿では,大規模言語モデルに新しい機械学習フレームワークを導入する。
我々の目標は、LSMが有害、幻覚、あるいはプライバシーを侵害する応答を生じさせないようにすることです。
実験結果から,本手法はモデル性能を実質的に損なうことなく,学習対象を効果的に満たすことが示唆された。
論文 参考訳(メタデータ) (2024-02-03T05:14:56Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。