論文の概要: ExtendAttack: Attacking Servers of LRMs via Extending Reasoning
- arxiv url: http://arxiv.org/abs/2506.13737v1
- Date: Mon, 16 Jun 2025 17:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.192816
- Title: ExtendAttack: Attacking Servers of LRMs via Extending Reasoning
- Title(参考訳): ExtendAttack:Extended Reasoningを通じてLRMのサーバを攻撃
- Authors: Zhenhao Zhu, Yue Liu, Yingwei Ma, Hongcheng Gao, Nuo Chen, Yanpei Guo, Wenjie Qu, Huiying Xu, Xinzhong Zhu, Jiaheng Zhang,
- Abstract要約: 大規模推論モデル(LRM)は複雑なタスクにおいて有望な性能を示す。
サーバのリソースを悪質に占有するために,ExtendedAttack と呼ばれる LRM に対する新たな攻撃手法を提案する。
我々は,HumanEvalベンチマークのo3モデルに対して,ExtensionAttackがモデル応答長を2.5倍に向上することを示す。
- 参考スコア(独自算出の注目度): 27.205747119390846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated promising performance in complex tasks. However, the resource-consuming reasoning processes may be exploited by attackers to maliciously occupy the resources of the servers, leading to a crash, like the DDoS attack in cyber. To this end, we propose a novel attack method on LRMs termed ExtendAttack to maliciously occupy the resources of servers by stealthily extending the reasoning processes of LRMs. Concretely, we systematically obfuscate characters within a benign prompt, transforming them into a complex, poly-base ASCII representation. This compels the model to perform a series of computationally intensive decoding sub-tasks that are deeply embedded within the semantic structure of the query itself. Extensive experiments demonstrate the effectiveness of our proposed ExtendAttack. Remarkably, it increases the length of the model's response by over 2.5 times for the o3 model on the HumanEval benchmark. Besides, it preserves the original meaning of the query and achieves comparable answer accuracy, showing the stealthiness.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑なタスクにおいて有望な性能を示す。
しかし、リソースを消費する推論プロセスは、攻撃者が悪質にサーバーのリソースを占有するために悪用される可能性がある。
そこで本研究では,サーバのリソースを悪質に占有するLRMの攻撃手法であるExtendedAttackを提案する。
具体的には、良性プロンプト内で文字を体系的に難読化し、それらを複雑なポリベースASCII表現に変換する。
これは、クエリ自体のセマンティック構造に深く埋め込まれた一連の計算集約的なデコードサブタスクを実行するためにモデルを補完する。
大規模実験により提案したExtendedAttackの有効性が実証された。
注目すべきは、HumanEvalベンチマークのo3モデルに対して、モデル応答の長さを2.5倍にすることだ。
さらに、クエリの本来の意味を保存し、同等の回答精度を達成し、ステルス性を示す。
関連論文リスト
- A Reward-driven Automated Webshell Malicious-code Generator for Red-teaming [0.0]
難読化メソッドによって整理された、公開され、適切に分類された悪意のあるコードデータセットが大幅に不足している。
既存の悪意のあるコード生成手法は、主に迅速なエンジニアリングに依存しており、しばしばそれらが生成するペイロードの多様性と高い冗長性に悩まされる。
我々は、red-teamingアプリケーション用に設計されたtextbfRAWG, textbfReward-driven textbfAutomated textbfWebshell Malicious-code textbfGeneratorを提案する。
論文 参考訳(メタデータ) (2025-05-30T06:16:42Z) - Practical Reasoning Interruption Attacks on Reasoning Large Language Models [0.24963930962128378]
大規模な言語モデル(RLLM)の推論は、さまざまなタスクにわたって優れたパフォーマンスを示してきたが、多くのセキュリティ脆弱性も明らかにしている。
最近の研究で、DeepSeek-R1では、敵対的なプロンプトの下で、明確な"思考停止"脆弱性が特定されている。
我々は,新規なプロンプトインジェクション・アタックを開発し,その根本原因を解析した。
論文 参考訳(メタデータ) (2025-05-10T13:36:01Z) - AGENTFUZZER: Generic Black-Box Fuzzing for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentFuzzerを提案する。
我々はAgentFuzzerをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression [12.215295420714787]
推論割り込み攻撃(Reasoning Interruption Attack)は、適応トークン圧縮に基づく即発インジェクション攻撃である。
本研究では,アタックプロンプトと適応トークン圧縮フレームワークを効率的に収集するための体系的アプローチを開発する。
実効攻撃能力を保ちながら,我々の圧縮フレームワークがプロンプト長を大幅に短縮することを示す実験を行った。
論文 参考訳(メタデータ) (2025-04-29T07:34:22Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Phantom: General Trigger Attacks on Retrieval Augmented Language Generation [30.63258739968483]
Retrieval Augmented Generation (RAG)は、現代の大規模言語モデル(LLM)の機能を拡張する
本稿では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。
我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。
論文 参考訳(メタデータ) (2024-05-30T21:19:24Z) - LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence [68.27280750612204]
最近のエンボディエージェントは、主に強化学習(RL)または大規模言語モデル(LLM)に基づいて構築されている。
本研究では, 提案したレフェリーRLを, 開発した大規模自己回帰モデル(LARM)上で実施することにより, 欠点を回避しつつ, それらの利点を組み合わせる。
具体的には、LARMは軽量なLLM(5Bパラメータよりも小さい)上に構築され、テキストではなく次のアクションを直接出力する。
論文 参考訳(メタデータ) (2024-05-27T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。