論文の概要: One Token Embedding Is Enough to Deadlock Your Large Reasoning Model
- arxiv url: http://arxiv.org/abs/2510.15965v1
- Date: Sun, 12 Oct 2025 07:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.728596
- Title: One Token Embedding Is Enough to Deadlock Your Large Reasoning Model
- Title(参考訳): 大きめのレゾネーターのモデルをロックするには、もう1つのToken Embedding
- Authors: Mohan Zhang, Yihua Zhang, Jinghan Jia, Zhangyang Wang, Sijia Liu, Tianlong Chen,
- Abstract要約: 我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 91.48868589442837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large reasoning models (LRMs) exhibit impressive multi-step problem-solving via chain-of-thought (CoT) reasoning. However, this iterative thinking mechanism introduces a new vulnerability surface. We present the Deadlock Attack, a resource exhaustion method that hijacks an LRM's generative control flow by training a malicious adversarial embedding to induce perpetual reasoning loops. Specifically, the optimized embedding encourages transitional tokens (e.g., "Wait", "But") after reasoning steps, preventing the model from concluding its answer. A key challenge we identify is the continuous-to-discrete projection gap: na\"ive projections of adversarial embeddings to token sequences nullify the attack. To overcome this, we introduce a backdoor implantation strategy, enabling reliable activation through specific trigger tokens. Our method achieves a 100% attack success rate across four advanced LRMs (Phi-RM, Nemotron-Nano, R1-Qwen, R1-Llama) and three math reasoning benchmarks, forcing models to generate up to their maximum token limits. The attack is also stealthy (in terms of causing negligible utility loss on benign user inputs) and remains robust against existing strategies trying to mitigate the overthinking issue. Our findings expose a critical and underexplored security vulnerability in LRMs from the perspective of reasoning (in)efficiency.
- Abstract(参考訳): 現代の大推論モデル(LRMs)は、チェーン・オブ・シント(CoT)推論による素晴らしい多段階の問題解決を示す。
しかし、この反復的思考機構は新たな脆弱性表面を導入している。
有害な敵の埋め込みを訓練して永久的推論ループを誘導することにより, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
具体的には、最適化された埋め込みは、ステップの推論後にトランジショナルトークン(例: "Wait", "But")を奨励し、モデルが応答を終了するのを防ぐ。
私たちが認識している重要な課題は、連続的から離散的なプロジェクションギャップである: トークンシーケンスへの逆埋め込みの"射影"が攻撃を無効にする。
これを解決するために,特定のトリガトークンによる確実なアクティベーションを可能にするバックドア注入戦略を導入する。
提案手法は,Phi-RM,Nemotron-Nano,R1-Qwen,R1-Llama) および3つの数学推論ベンチマークにおいて,100%の攻撃成功率を達成し,最大トークン限界までのモデル生成を強制する。
この攻撃はステルス性(良質なユーザ入力に無視可能なユーティリティ損失を引き起こすという意味で)もあり、過度に考え抜かれた問題を緩和しようとする既存の戦略に対して堅牢である。
この結果から, LRM に重大な脆弱性があり, 安全性が低いことが示唆された。
関連論文リスト
- Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense [16.519353449118814]
我々は, LRM が主要な目的から無関係で複雑なタスクをプロンプトに不正に埋め込むことによって逸脱する原因となる重要な脆弱性を解析する。
現状のLEMでも高い感受性を示し, インジェクトインジェクターによりタスク精度を最大60%削減した。
本稿では, 教師付きファインタニング(SFT)と強化学習(RL)を併用した, 合成敵データを用いたトレーニングベースディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-17T23:16:34Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts [82.46857666702924]
大規模言語モデル(LLM)における推論のための新しいパラダイムを提案する。
自己回帰的にトークンを生成する代わりに、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
MARCOSはトークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは4.7%、推論では15.7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-09-29T16:44:22Z) - BadReasoner: Planting Tunable Overthinking Backdoors into Large Reasoning Models for Fun or Profit [12.189197763012409]
大規模言語モデル(LRM)は人工知能の重要な進歩として現れている。
本稿では,LRMに対する未探索攻撃ベクトルを同定し,これを「過度なチューナブル」と呼ぶ。
そこで本研究では,単純なオン/オフ攻撃を超越して,攻撃者がモデルの推論冗長性の範囲を正確に制御できるような,新たな調整可能なバックドアを提案する。
論文 参考訳(メタデータ) (2025-07-24T11:24:35Z) - Do Thinking Tokens Help or Trap? Towards More Efficient Large Reasoning Model [7.8354921036790275]
大きな推論モデル(LRM)は複雑な問題を解決するのに優れているが、過度なジレンマに直面している。
単純なタスクを扱う場合、思考トークンがオーバーロードされた冗長なレスポンスを生成することが多い。
これらのトークンは、リフレクションやバックトラックのような不要な高レベルの推論動作を引き起こし、効率を低下させる。
論文 参考訳(メタデータ) (2025-06-30T13:30:33Z) - On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。
次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。
我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-06-10T02:55:13Z) - Practical Reasoning Interruption Attacks on Reasoning Large Language Models [0.24963930962128378]
大規模な言語モデル(RLLM)の推論は、さまざまなタスクにわたって優れたパフォーマンスを示してきたが、多くのセキュリティ脆弱性も明らかにしている。
最近の研究で、DeepSeek-R1では、敵対的なプロンプトの下で、明確な"思考停止"脆弱性が特定されている。
我々は,新規なプロンプトインジェクション・アタックを開発し,その根本原因を解析した。
論文 参考訳(メタデータ) (2025-05-10T13:36:01Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。