論文の概要: Anti-adversarial Learning: Desensitizing Prompts for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.01273v1
- Date: Fri, 25 Apr 2025 06:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.04282
- Title: Anti-adversarial Learning: Desensitizing Prompts for Large Language Models
- Title(参考訳): 反逆学習:大規模言語モデルのための脱感作プロンプト
- Authors: Xuan Li, Zhe Yin, Xiaodong Gu, Beijun Shen,
- Abstract要約: 本稿では,LLMプロンプトを脱感作する方法であるPromptObfusを提案する。
PromptObfusの基本的な考え方は"反逆的"な学習であり、プライバシーの言葉を不明瞭な機密情報へと誘惑する。
PromptObfus はタスク性能を保ちながらリモート LLM からのプライバシ推論を効果的に防止できることを示す。
- 参考スコア(独自算出の注目度): 13.674984661911607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread use of LLMs, preserving privacy in user prompts has become crucial, as prompts risk exposing privacy and sensitive data to the cloud LLMs. Traditional techniques like homomorphic encryption, secure multi-party computation, and federated learning face challenges due to heavy computational costs and user participation requirements, limiting their applicability in LLM scenarios. In this paper, we propose PromptObfus, a novel method for desensitizing LLM prompts. The core idea of PromptObfus is "anti-adversarial" learning, which perturbs privacy words in the prompt to obscure sensitive information while retaining the stability of model predictions. Specifically, PromptObfus frames prompt desensitization as a masked language modeling task, replacing privacy-sensitive terms with a [MASK] token. A desensitization model is trained to generate candidate replacements for each masked position. These candidates are subsequently selected based on gradient feedback from a surrogate model, ensuring minimal disruption to the task output. We demonstrate the effectiveness of our approach on three NLP tasks. Results show that PromptObfus effectively prevents privacy inference from remote LLMs while preserving task performance.
- Abstract(参考訳): LLMの普及に伴い、ユーザプロンプトにおけるプライバシの保護が重要となり、プライバシと機密データをクラウドLLMに公開するリスクが高まっている。
ホモモルフィック暗号化、セキュアなマルチパーティ計算、フェデレーション付き学習といった従来の技術は、計算コストとユーザ参加要件のために困難に直面し、LLMシナリオにおける適用性を制限している。
本稿では,LLMプロンプトを脱感作する方法であるPromptObfusを提案する。
PromptObfusの基本的な考え方は"反逆的"な学習であり、モデル予測の安定性を維持しながら、プライバシーの言葉を不明瞭な機密情報へと誘惑する。
具体的には、PromptObfusフレームは、プライバシーに敏感な用語を[MASK]トークンに置き換え、マスク付き言語モデリングタスクとしてデセンシタイズを促進する。
脱感作モデルは、各マスク位置の候補置換を生成するために訓練される。
これらの候補はその後、サロゲートモデルからの勾配フィードバックに基づいて選択され、タスク出力を最小限に破壊することを保証する。
提案手法の有効性を3つのNLP課題に適用した。
その結果,PromptObfusはタスク性能を保ちながらリモートLLMからのプライバシ推論を効果的に防止できることがわかった。
関連論文リスト
- HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router [42.222681564769076]
我々はHiddenGuardを紹介した。HiddenGuardは大規模言語モデルにおいて、きめ細かな安全な生成のための新しいフレームワークである。
HiddenGuard には LLM と連携して動作する Prism が組み込まれている。
実験の結果,HiddenGuardはF1スコアの90%以上を達成し,有害なコンテンツを検出・再現することがわかった。
論文 参考訳(メタデータ) (2024-10-03T17:10:41Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
大規模言語モデル(LLM)は、不適切または有害なコンテンツの生成につながるジェイルブレイク攻撃に対して脆弱である。
本稿では,AdvPrompter という別の LLM を用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - ConfusionPrompt: Practical Private Inference for Online Large Language Models [3.8134804426693094]
最先端の大規模言語モデル(LLM)は一般的にオンラインサービスとしてデプロイされ、ユーザーはクラウドサーバーに詳細なプロンプトを送信する必要がある。
我々は,従来のプロンプトを小さなサブプロンプトに分解することで,ユーザのプライバシを保護する,プライベートLLM推論のための新しいフレームワークであるConfusionPromptを紹介する。
コンフュージョンプロンプトは,オープンソースモデルと摂動に基づく手法を用いて,局所的推論手法よりもはるかに高い実用性を実現することを示す。
論文 参考訳(メタデータ) (2023-12-30T01:26:42Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Last One Standing: A Comparative Analysis of Security and Privacy of
Soft Prompt Tuning, LoRA, and In-Context Learning [25.454403998164203]
大きな言語モデル(LLM)は自然言語処理のための強力なツールであり、新しいアプリケーションやユーザエクスペリエンスを可能にする。
LLMは、プライバシとセキュリティ上の問題を引き起こすプライベートデータへの適応を必要とすることが多い。
LLMをプライベートデータに適用するためのいくつかの手法が提案されているが、それらの比較プライバシーとセキュリティ特性は体系的に研究されていない。
論文 参考訳(メタデータ) (2023-10-17T17:03:00Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Hide and Seek (HaS): A Lightweight Framework for Prompt Privacy
Protection [6.201275002179716]
本稿では,H(ide)" と "S(eek)" の2つのコアプロセスとして,匿名化のためのプライベートエンティティの隠蔽と非匿名化のためのプライベートエンティティの検索を行うHaSフレームワークを紹介する。
本研究では,HaSのプライバシー保護性能を定量的に評価するために,ブラックボックスモデルとホワイトボックスモデルの両方を提案する。
論文 参考訳(メタデータ) (2023-09-06T14:54:11Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。