Fugu-MT 論文翻訳(概要): System Prompt Poisoning: Persistent Attacks on Large Language Models Beyond User Injection

論文の概要: System Prompt Poisoning: Persistent Attacks on Large Language Models Beyond User Injection

arxiv url: http://arxiv.org/abs/2505.06493v1
Date: Sat, 10 May 2025 02:31:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.866889
Title: System Prompt Poisoning: Persistent Attacks on Large Language Models Beyond User Injection
Title（参考訳）: System Prompt Poisoning: ユーザインジェクションを超えた大規模言語モデルに対する永続的な攻撃
Authors: Jiawei Guo, Haipeng Cai,
Abstract要約: 大きな言語モデル(LLM)は、その印象的な生成能力のために、様々なアプリケーションで広く採用されている。既存の研究は主にユーザープロンプトによる脅威に焦点を当てているが、システムプロンプトのセキュリティはほとんど見過ごされている。 LLMに対する新たな攻撃ベクトルであるシステムプロンプト中毒を導入し、従来のユーザプロンプトインジェクションとは異なり、毒素システムプロンプトはその後のすべてのユーザインタラクションやモデル応答に永続的に影響を及ぼす。
参考スコア（独自算出の注目度）: 13.175123810033119
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have gained widespread adoption across diverse applications due to their impressive generative capabilities. Their plug-and-play nature enables both developers and end users to interact with these models through simple prompts. However, as LLMs become more integrated into various systems in diverse domains, concerns around their security are growing. Existing studies mainly focus on threats arising from user prompts (e.g. prompt injection attack) and model output (e.g. model inversion attack), while the security of system prompts remains largely overlooked. This work bridges the critical gap. We introduce system prompt poisoning, a new attack vector against LLMs that, unlike traditional user prompt injection, poisons system prompts hence persistently impacts all subsequent user interactions and model responses. We systematically investigate four practical attack strategies in various poisoning scenarios. Through demonstration on both generative and reasoning LLMs, we show that system prompt poisoning is highly feasible without requiring jailbreak techniques, and effective across a wide range of tasks, including those in mathematics, coding, logical reasoning, and natural language processing. Importantly, our findings reveal that the attack remains effective even when user prompts employ advanced prompting techniques like chain-of-thought (CoT). We also show that such techniques, including CoT and retrieval-augmentation-generation (RAG), which are proven to be effective for improving LLM performance in a wide range of tasks, are significantly weakened in their effectiveness by system prompt poisoning.
Abstract（参考訳）: 大きな言語モデル(LLM)は、その印象的な生成能力のために、様々なアプリケーションで広く採用されている。そのプラグイン・アンド・プレイの性質により、開発者とエンドユーザの両方がシンプルなプロンプトでこれらのモデルと対話できる。しかし、LSMが多様なドメインの様々なシステムに統合されるにつれ、セキュリティに関する懸念が高まっている。既存の研究は主にユーザプロンプト(例えばインジェクション攻撃)とモデルアウトプット(例えばモデルインバージョン攻撃)による脅威に焦点を当てているが、システムプロンプトのセキュリティはほとんど見落としている。この仕事は重大なギャップを埋める。 LLMに対する新たな攻撃ベクトルであるシステムプロンプト中毒を導入し、従来のユーザプロンプトインジェクションとは異なり、毒素システムプロンプトはその後のすべてのユーザインタラクションやモデル応答に永続的に影響を及ぼす。各種毒殺シナリオにおける4つの実践的攻撃戦略を体系的に検討した。生成的および推論的 LLM の実証を通して,システムプロンプト中毒はジェイルブレイクのテクニックを必要とせずに実現可能であり,数学,コーディング,論理的推論,自然言語処理など幅広いタスクで有効であることを示す。重要なことは、ユーザがチェーン・オブ・シークレット(CoT)のような高度なプロンプト技術を採用する場合でも、この攻撃が有効であることを明らかにする。また, 広範囲のタスクにおいてLLMの性能向上に有効であることが証明されたCoTやRAGなどの技術は, システム・プロンプト中毒による効果が著しく低下していることを示す。

関連論文リスト

System Prompt Extraction Attacks and Defenses in Large Language Models [2.6986500640871482]
大規模言語モデル(LLM)におけるシステムプロンプトは、モデルの振る舞いと応答生成を導く上で重要な役割を果たす。近年の研究では、LLMシステムプロンプトは、厳密に設計されたクエリによる攻撃の抽出に非常に敏感であることが示されている。脅威が増大しているにもかかわらず、システムによる攻撃と防御の促進に関する体系的な研究が欠如している。
論文参考訳（メタデータ） (2025-05-27T21:36:27Z)
Universal and Context-Independent Triggers for Precise Control of LLM Outputs [6.390542864765991]
大規模言語モデル(LLM)は、自動コンテンツ生成や重要な意思決定システムといったアプリケーションで広く採用されている。勾配に基づくホワイトボックス攻撃技術の最近の進歩は、ジェイルブレイクやシステムプロンプトリークといったタスクにおいて有望であることを示している。そこで本研究では,このようなトリガを効果的に発見し,攻撃の有効性を評価する手法を提案する。
論文参考訳（メタデータ） (2024-11-22T05:17:18Z)
Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文参考訳（メタデータ） (2024-11-01T04:05:59Z)
Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems [6.480532634073257]
本稿では、相互接続されたエージェント間で、悪意のある自己複製を促す新しい攻撃であるPrompt infectionを紹介する。この攻撃は、データ盗難、詐欺、誤報、システム全体の破壊など、深刻な脅威を引き起こす。そこで本研究では,既存の安全対策と組み合わせることで感染拡大を著しく軽減する防衛機構であるLSM Taggingを提案する。
論文参考訳（メタデータ） (2024-10-09T11:01:29Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文参考訳（メタデータ） (2024-01-15T11:44:18Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Hijacking Large Language Models via Adversarial In-Context Learning [10.416972293173993]
In-context Learning (ICL) は、ラベル付き例を事前条件付きプロンプトのデモ(デム)として活用することで、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。既存の攻撃は検出しやすく、ユーザーの入力にトリガーを必要とするか、ICLに対する特異性を欠いている。本研究は、ILCに対する新規なトランスファー可能なプロンプトインジェクション攻撃を導入し、LSMをハイジャックしてターゲット出力を生成したり、有害な応答を誘発する。
論文参考訳（メタデータ） (2023-11-16T15:01:48Z)
Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文参考訳（メタデータ） (2023-10-19T15:12:09Z)
Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文参考訳（メタデータ） (2023-09-01T17:59:44Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。