論文の概要: Anti-adversarial Learning: Desensitizing Prompts for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.01273v1
- Date: Fri, 25 Apr 2025 06:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.04282
- Title: Anti-adversarial Learning: Desensitizing Prompts for Large Language Models
- Title(参考訳): 反逆学習:大規模言語モデルのための脱感作プロンプト
- Authors: Xuan Li, Zhe Yin, Xiaodong Gu, Beijun Shen,
- Abstract要約: 本稿では,LLMプロンプトを脱感作する方法であるPromptObfusを提案する。
PromptObfusの基本的な考え方は"反逆的"な学習であり、プライバシーの言葉を不明瞭な機密情報へと誘惑する。
PromptObfus はタスク性能を保ちながらリモート LLM からのプライバシ推論を効果的に防止できることを示す。
- 参考スコア(独自算出の注目度): 13.674984661911607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread use of LLMs, preserving privacy in user prompts has become crucial, as prompts risk exposing privacy and sensitive data to the cloud LLMs. Traditional techniques like homomorphic encryption, secure multi-party computation, and federated learning face challenges due to heavy computational costs and user participation requirements, limiting their applicability in LLM scenarios. In this paper, we propose PromptObfus, a novel method for desensitizing LLM prompts. The core idea of PromptObfus is "anti-adversarial" learning, which perturbs privacy words in the prompt to obscure sensitive information while retaining the stability of model predictions. Specifically, PromptObfus frames prompt desensitization as a masked language modeling task, replacing privacy-sensitive terms with a [MASK] token. A desensitization model is trained to generate candidate replacements for each masked position. These candidates are subsequently selected based on gradient feedback from a surrogate model, ensuring minimal disruption to the task output. We demonstrate the effectiveness of our approach on three NLP tasks. Results show that PromptObfus effectively prevents privacy inference from remote LLMs while preserving task performance.
- Abstract(参考訳): LLMの普及に伴い、ユーザプロンプトにおけるプライバシの保護が重要となり、プライバシと機密データをクラウドLLMに公開するリスクが高まっている。
ホモモルフィック暗号化、セキュアなマルチパーティ計算、フェデレーション付き学習といった従来の技術は、計算コストとユーザ参加要件のために困難に直面し、LLMシナリオにおける適用性を制限している。
本稿では,LLMプロンプトを脱感作する方法であるPromptObfusを提案する。
PromptObfusの基本的な考え方は"反逆的"な学習であり、モデル予測の安定性を維持しながら、プライバシーの言葉を不明瞭な機密情報へと誘惑する。
具体的には、PromptObfusフレームは、プライバシーに敏感な用語を[MASK]トークンに置き換え、マスク付き言語モデリングタスクとしてデセンシタイズを促進する。
脱感作モデルは、各マスク位置の候補置換を生成するために訓練される。
これらの候補はその後、サロゲートモデルからの勾配フィードバックに基づいて選択され、タスク出力を最小限に破壊することを保証する。
提案手法の有効性を3つのNLP課題に適用した。
その結果,PromptObfusはタスク性能を保ちながらリモートLLMからのプライバシ推論を効果的に防止できることがわかった。
関連論文リスト
- Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - ConfusionPrompt: Practical Private Inference for Online Large Language Models [3.8134804426693094]
最先端の大規模言語モデル(LLM)は一般的にオンラインサービスとしてデプロイされ、ユーザーはクラウドサーバーに詳細なプロンプトを送信する必要がある。
我々は,従来のプロンプトを小さなサブプロンプトに分解することで,ユーザのプライバシを保護する,プライベートLLM推論のための新しいフレームワークであるConfusionPromptを紹介する。
コンフュージョンプロンプトは,オープンソースモデルと摂動に基づく手法を用いて,局所的推論手法よりもはるかに高い実用性を実現することを示す。
論文 参考訳(メタデータ) (2023-12-30T01:26:42Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Hide and Seek (HaS): A Lightweight Framework for Prompt Privacy
Protection [6.201275002179716]
本稿では,H(ide)" と "S(eek)" の2つのコアプロセスとして,匿名化のためのプライベートエンティティの隠蔽と非匿名化のためのプライベートエンティティの検索を行うHaSフレームワークを紹介する。
本研究では,HaSのプライバシー保護性能を定量的に評価するために,ブラックボックスモデルとホワイトボックスモデルの両方を提案する。
論文 参考訳(メタデータ) (2023-09-06T14:54:11Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。