論文の概要: ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.00154v1
- Date: Thu, 29 Jan 2026 18:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.011484
- Title: ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models
- Title(参考訳): ReasoningBomb:大規模推論モデルにおける病理的長期推論の導入によるStealthy Denial-of-Service攻撃
- Authors: Xiaogeng Liu, Xinyan Wang, Yechao Zhang, Sanjay Kariyappa, Chong Xiang, Muhao Chen, G. Edward Suh, Chaowei Xiao,
- Abstract要約: 大規模推論モデル(LRM)は、多段階推論トレースを明示した大規模言語モデルを拡張する。
この能力は、推論の高い計算コストを生かした、新しいタイプのプロンプト誘発推論時間拒否攻撃(PI-DoS)を導入している。
本稿では,強化学習に基づくPI-DoSフレームワークであるReasoningBombについて紹介する。
- 参考スコア(独自算出の注目度): 67.15960154375131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) extend large language models with explicit multi-step reasoning traces, but this capability introduces a new class of prompt-induced inference-time denial-of-service (PI-DoS) attacks that exploit the high computational cost of reasoning. We first formalize inference cost for LRMs and define PI-DoS, then prove that any practical PI-DoS attack should satisfy three properties: (1) a high amplification ratio, where each query induces a disproportionately long reasoning trace relative to its own length; (ii) stealthiness, in which prompts and responses remain on the natural language manifold and evade distribution shift detectors; and (iii) optimizability, in which the attack supports efficient optimization without being slowed by its own success. Under this framework, we present ReasoningBomb, a reinforcement-learning-based PI-DoS framework that is guided by a constant-time surrogate reward and trains a large reasoning-model attacker to generate short natural prompts that drive victim LRMs into pathologically long and often effectively non-terminating reasoning. Across seven open-source models (including LLMs and LRMs) and three commercial LRMs, ReasoningBomb induces 18,759 completion tokens on average and 19,263 reasoning tokens on average across reasoning models. It outperforms the the runner-up baseline by 35% in completion tokens and 38% in reasoning tokens, while inducing 6-7x more tokens than benign queries and achieving 286.7x input-to-output amplification ratio averaged across all samples. Additionally, our method achieves 99.8% bypass rate on input-based detection, 98.7% on output-based detection, and 98.4% against strict dual-stage joint detection.
- Abstract(参考訳): 大規模推論モデル(LRM)は、明示的な多段階推論トレースによって大きな言語モデルを拡張するが、この能力は、推論時推論(PI-DoS)攻撃の新たなクラスを導入し、推論の計算コストが高い。
まず, LRM の推論コストを形式化し, PI-DoS を定義し, 実際の PI-DoS 攻撃が 3 つの特性を満たすことを証明する。
(二 自然言語多様体及び回避分布シフト検出器にプロンプト及び応答が残されているステルス性
三 攻撃が自らの成功により遅くならずに効率的な最適化を支援する最適化性。
この枠組みでは、強化学習に基づくPI-DoSフレームワークであるReasoningBombを、定常的なサロゲート報酬で誘導し、大きな推論モデルアタッカーを訓練して、短い自然的プロンプトを発生させ、被害者のLEMを病理学的に長く、しばしば効果的に終了しない推論へと駆り立てる。
LLM と LRM を含む7つのオープンソースモデルと3つの商用 LRM モデルで、ReasoningBomb は平均で18,759個の完了トークン、平均で19,263個の推論トークンを誘導する。
ランナアップベースラインは、完了トークンで35%、推論トークンで38%、良性クエリで6-7倍のトークンを誘導し、全てのサンプルで平均286.7倍のインプット・トゥ・アウトプット増幅比を達成する。
さらに,入力ベース検出では99.8%のバイパス率,出力ベース検出では98.7%,厳密な2段関節検出では98.4%を達成した。
関連論文リスト
- Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - An Automated Attack Investigation Approach Leveraging Threat-Knowledge-Augmented Large Language Models [17.220143037047627]
Advanced Persistent Threats (APTs) は高価値システムを侵害してデータを盗んだり、操作を妨害したりする。
既存の手法では、プラットフォーム全般性の貧弱さ、進化的戦術への一般化の制限、アナリスト対応のレポート作成が不可能なことなどに悩まされている。
動的に適応可能なKil-Chain対応脅威知識ベースを組み込んだLDMを利用した攻撃調査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T08:57:01Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Excessive Reasoning Attack on Reasoning LLMs [26.52688123765127]
本研究では,過度な推論行動を活用するために,敵対的入力を作成できるという,新たな脅威を明らかにする。
提案手法は,実用性能に匹敵する推理長を3倍から9倍に向上することを示した。
提案手法は,o3-mini,o1-mini,DeepSeek-R1,QWQモデルで計算オーバーヘッドを誘導するトランスファービリティを示す。
論文 参考訳(メタデータ) (2025-06-17T10:16:52Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Dynamic Early Exit in Reasoning Models [21.30793518631921]
長いチェーン・オブ・シンクレット(CoT)生成における再考は、問題解決の効率を低下させるだけでなく、精度損失のリスクも引き起こす。
我々は,LLMが生成時に早期終了によってCoT配列を自己トランケートできる簡易かつ効果的な方法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。