論文の概要: Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression
- arxiv url: http://arxiv.org/abs/2504.20493v1
- Date: Tue, 29 Apr 2025 07:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.787247
- Title: Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression
- Title(参考訳): トケン効率の良いプロンプトインジェクションアタック:適応型トケン圧縮によるLLM推論におけるセッセーションの誘発
- Authors: Yu Cui, Yujun Cai, Yiwei Wang,
- Abstract要約: 推論割り込み攻撃(Reasoning Interruption Attack)は、適応トークン圧縮に基づく即発インジェクション攻撃である。
本研究では,アタックプロンプトと適応トークン圧縮フレームワークを効率的に収集するための体系的アプローチを開発する。
実効攻撃能力を保ちながら,我々の圧縮フレームワークがプロンプト長を大幅に短縮することを示す実験を行った。
- 参考スコア(独自算出の注目度): 12.215295420714787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reasoning large language models (LLMs) demonstrate remarkable performance across various tasks, they also contain notable security vulnerabilities. Recent research has uncovered a "thinking-stopped" vulnerability in DeepSeek-R1, where model-generated reasoning tokens can forcibly interrupt the inference process, resulting in empty responses that compromise LLM-integrated applications. However, existing methods triggering this vulnerability require complex mathematical word problems with long prompts--even exceeding 5,000 tokens. To reduce the token cost and formally define this vulnerability, we propose a novel prompt injection attack named "Reasoning Interruption Attack", based on adaptive token compression. We demonstrate that simple standalone arithmetic tasks can effectively trigger this vulnerability, and the prompts based on such tasks exhibit simpler logical structures than mathematical word problems. We develop a systematic approach to efficiently collect attack prompts and an adaptive token compression framework that utilizes LLMs to automatically compress these prompts. Experiments show our compression framework significantly reduces prompt length while maintaining effective attack capabilities. We further investigate the attack's performance via output prefix and analyze the underlying causes of the vulnerability, providing valuable insights for improving security in reasoning LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論は、さまざまなタスクで顕著なパフォーマンスを示す一方で、注目すべきセキュリティ脆弱性も含まれている。
最近の研究でDeepSeek-R1では、モデル生成推論トークンが推論プロセスを強制的に中断し、LCM統合されたアプリケーションに侵入する、"シンキングストップ"脆弱性が発見された。
しかし、この脆弱性を引き起こす既存の手法では、5000以上のトークンであっても、長いプロンプトを持つ複雑な数学的単語の問題が必要となる。
トークンのコストを低減し、この脆弱性を正式に定義するために、適応トークン圧縮に基づく新しいプロンプトインジェクション攻撃"Reasoning Interruption Attack"を提案する。
本稿では,この脆弱性を効果的に引き起こすことができることを示すとともに,これらの課題に基づくプロンプトは,数学的単語問題よりも単純な論理構造を示す。
我々は、攻撃プロンプトを効率的に収集するための体系的なアプローチと、LLMを利用してこれらのプロンプトを自動的に圧縮する適応トークン圧縮フレームワークを開発する。
実効攻撃能力を維持しながら, 圧縮フレームワークのプロンプト長を著しく短縮する実験を行った。
さらに、出力プレフィックスを介して攻撃性能を調査し、脆弱性の原因を分析し、LSMの推論におけるセキュリティ向上に有用な洞察を提供する。
関連論文リスト
- CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks [47.62236306990252]
大規模言語モデル (LLM) は間接的なインジェクション攻撃の影響を受けやすい。
この脆弱性は、プロンプト内のデータと命令を区別できないLLMが原因である。
本稿では,タスクトリガリングニューロンの識別と解析により,この攻撃を防御するCachePruneを提案する。
論文 参考訳(メタデータ) (2025-04-29T23:42:21Z) - Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack [7.302295561638202]
悪意のあるユーザは、攻撃命令をバッチに注入することで、すべてのクエリに不要な干渉を引き起こす。
この脆弱性は、フィッシングリンクのような有害なコンテンツや論理的推論の中断をもたらす可能性がある。
論文 参考訳(メタデータ) (2025-03-18T15:16:10Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs [2.4117856871959953]
大規模言語モデル(LLM)は、人間のようなテキストを生成する強力な能力のため、様々なアプリケーションで広く利用されている。
プロンプトインジェクション攻撃は、モデルの最初の命令を悪意のあるプロンプトで上書きし、生成されたテキストを操作する。
本稿では,ファジィ技術を利用した新規な試験フレームワークであるProMPTFUZZを提案する。
論文 参考訳(メタデータ) (2024-09-23T06:08:32Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks
Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。
この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。
実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文 参考訳(メタデータ) (2024-01-15T11:44:18Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Hijacking Large Language Models via Adversarial In-Context Learning [8.15194326639149]
In-context Learning (ICL)は、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は、検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。
この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。