Fugu-MT 論文翻訳(概要): Prompt Obfuscation for Large Language Models

論文の概要: Prompt Obfuscation for Large Language Models

arxiv url: http://arxiv.org/abs/2409.11026v1
Date: Tue, 17 Sep 2024 09:43:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 17:18:54.053725
Title: Prompt Obfuscation for Large Language Models
Title（参考訳）: 大規模言語モデルのプロンプト難読化
Authors: David Pape, Thorsten Eisenhofer, Lea Schönherr,
Abstract要約: 本研究では,従来のシステムプロンプトの代替案を提案する。システムプロンプトの抽出を防止するために,プロンプト難読化を導入する。提案手法は,知的財産権の保護に有効な手法でありながら,本来のシステムプロンプトと同じ実用性を維持しつつも有効であることを示す。
参考スコア（独自算出の注目度）: 8.395454692830322
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: System prompts that include detailed instructions to describe the task performed by the underlying large language model (LLM) can easily transform foundation models into tools and services with minimal overhead. Because of their crucial impact on the utility, they are often considered intellectual property, similar to the code of a software product. However, extracting system prompts is easily possible by using prompt injection. As of today, there is no effective countermeasure to prevent the stealing of system prompts and all safeguarding efforts could be evaded with carefully crafted prompt injections that bypass all protection mechanisms.In this work, we propose an alternative to conventional system prompts. We introduce prompt obfuscation to prevent the extraction of the system prompt while maintaining the utility of the system itself with only little overhead. The core idea is to find a representation of the original system prompt that leads to the same functionality, while the obfuscated system prompt does not contain any information that allows conclusions to be drawn about the original system prompt. We implement an optimization-based method to find an obfuscated prompt representation while maintaining the functionality. To evaluate our approach, we investigate eight different metrics to compare the performance of a system using the original and the obfuscated system prompts, and we show that the obfuscated version is constantly on par with the original one. We further perform three different deobfuscation attacks and show that with access to the obfuscated prompt and the LLM itself, we are not able to consistently extract meaningful information. Overall, we showed that prompt obfuscation can be an effective method to protect intellectual property while maintaining the same utility as the original system prompt.
Abstract（参考訳）: 基盤となる大きな言語モデル(LLM)によって実行されるタスクを記述するための詳細な命令を含むシステムプロンプトは、基礎モデルを最小限のオーバーヘッドでツールやサービスに簡単に変換できる。ユーティリティに重大な影響を与えるため、ソフトウェア製品のコードと同様、知的財産と見なされることが多い。しかし、プロンプトインジェクションを用いることで、抽出システムプロンプトを容易に得ることができる。現在、システムプロンプトの盗難防止に有効な対策はなく、すべての保護機構をバイパスするプロンプトインジェクションを慎重に行うことで、すべての安全対策を回避することが可能であり、従来のシステムプロンプトの代替案を提案する。本稿では,システム自体の実用性をほとんどオーバーヘッドなく維持しながら,システムプロンプトの抽出を防止するために,プロンプト難読化を導入する。中心となる考え方は、同じ機能につながる元のシステムプロンプトの表現を見つけることであるが、難読化されたシステムプロンプトには、元のシステムプロンプトに関する結論を導き出すための情報が含まれていない。機能を維持しながら難解なプロンプト表現を見つけるために最適化に基づく手法を実装した。提案手法を評価するために,元のシステムプロンプトと難読化システムプロンプトを用いてシステムの性能を比較するため,8種類のメトリクスを調査し,難読化バージョンが元のシステムと常に同等であることを示す。さらに3つの異なる難読化攻撃を行い、難読化プロンプトとLCM自体にアクセスしても、常に意味のある情報を抽出できないことを示す。全体として,プロンプト難読化は知的財産の保護に有効な方法であり,元のシステムと同一の実用性を維持しつつも有効であることを示した。

関連論文リスト

ProxyPrompt: Securing System Prompts against Prompt Extraction Attacks [45.61283468341869]
ProxyPromptは,プロンプトをプロキシに置き換えることで,プロンプトの漏出を防止する新しい防御機構である。このプロキシは、抽出されたプロンプトを難読化しながら元のタスクのユーティリティを保持し、攻撃者がタスクを再現したり、機密情報にアクセスできないようにする。
論文参考訳（メタデータ） (2025-05-16T17:13:45Z)
System Prompt Poisoning: Persistent Attacks on Large Language Models Beyond User Injection [13.175123810033119]
大きな言語モデル(LLM)は、その印象的な生成能力のために、様々なアプリケーションで広く採用されている。既存の研究は主にユーザープロンプトによる脅威に焦点を当てているが、システムプロンプトのセキュリティはほとんど見過ごされている。 LLMに対する新たな攻撃ベクトルであるシステムプロンプト中毒を導入し、従来のユーザプロンプトインジェクションとは異なり、毒素システムプロンプトはその後のすべてのユーザインタラクションやモデル応答に永続的に影響を及ぼす。
論文参考訳（メタデータ） (2025-05-10T02:31:26Z)
Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文参考訳（メタデータ） (2025-02-18T08:17:32Z)
Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models [15.764672596793352]
我々は,突発的漏洩のメカニズムを解析し,その機構を即発的記憶と呼び,対応する防御戦略を開発する。現在のLSMは、GPT-4のような安全アライメントを持つものでさえ、抽出攻撃の迅速化に非常に脆弱であることがわかった。
論文参考訳（メタデータ） (2024-08-05T12:20:39Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Are You Copying My Prompt? Protecting the Copyright of Vision Prompt for VPaaS via Watermark [4.071771108540602]
Visual Prompt Learning (VPL) は、事前訓練されたモデルパラメータの更新を避けることで、リソース消費を大幅に削減する従来の微調整方法とは異なる。 Visual Prompts as a Service (V)の開発者が登場した。これらの開発者は、認可された顧客に巧妙なプロンプトを提供することで利益を得る。しかし、大きな欠点はプロンプトのコピーと再配布が簡単であり、V開発者の知的財産権を脅かすことである。
論文参考訳（メタデータ） (2024-05-24T02:31:03Z)
PLeak: Prompt Leaking Attacks against Large Language Model Applications [20.122631273512255]
プロンプトリークと呼ばれる自然な攻撃は、LLMアプリケーションからシステムプロンプトを盗むことである。本稿では, PLeak と呼ばれる新しいクローズドボックス・プロンプト・リーク・アタック・フレームワークを設計し, 対向クエリを最適化する。この結果から,PLeakはシステムプロンプトを効果的にリークし,手動でクエリをキュレートするベースラインだけでなく,性能も著しく向上することが示された。
論文参考訳（メタデータ） (2024-05-10T21:52:34Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。 DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文参考訳（メタデータ） (2024-02-25T17:43:29Z)
Prompt Stealing Attacks Against Large Language Models [5.421974542780941]
大規模言語モデル(LLM)に対する新たな攻撃を提案する。提案したプロンプト盗難攻撃は、生成された回答に基づいて、これらのよく設計されたプロンプトを盗むことを目的としている。実験の結果,提案した攻撃の顕著な性能を示した。
論文参考訳（メタデータ） (2024-02-20T12:25:26Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)
Effective Prompt Extraction from Language Models [70.00099540536382]
本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。 3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
論文参考訳（メタデータ） (2023-07-13T16:15:08Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。