論文の概要: BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.10714v1
- Date: Thu, 13 Nov 2025 13:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.297729
- Title: BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models
- Title(参考訳): BadThink: 大規模言語モデルにおけるチェーン・オブ・ソート・推論の攻撃について再考
- Authors: Shuaitong Liu, Renjue Li, Lijia Yu, Lijun Zhang, Zhiming Liu, Gaojie Jin,
- Abstract要約: 我々はBadThinkを提案する。BadThinkは、大規模言語モデルにおいて、意図的に「過度な」振る舞いを誘発するように設計された最初のバックドア攻撃である。
慎重に作成されたトリガープロンプトによってアクティベートされると、BadThinkはモデルを操作して膨らませた推論トレースを生成する。
我々はこの攻撃を、高度な毒をベースとした微調整戦略によって実施する。
- 参考スコア(独自算出の注目度): 24.513640096951566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Chain-of-Thought (CoT) prompting have substantially improved the reasoning capabilities of large language models (LLMs), but have also introduced their computational efficiency as a new attack surface. In this paper, we propose BadThink, the first backdoor attack designed to deliberately induce "overthinking" behavior in CoT-enabled LLMs while ensuring stealth. When activated by carefully crafted trigger prompts, BadThink manipulates the model to generate inflated reasoning traces - producing unnecessarily redundant thought processes while preserving the consistency of final outputs. This subtle attack vector creates a covert form of performance degradation that significantly increases computational costs and inference time while remaining difficult to detect through conventional output evaluation methods. We implement this attack through a sophisticated poisoning-based fine-tuning strategy, employing a novel LLM-based iterative optimization process to embed the behavior by generating highly naturalistic poisoned data. Our experiments on multiple state-of-the-art models and reasoning tasks show that BadThink consistently increases reasoning trace lengths - achieving an over 17x increase on the MATH-500 dataset - while remaining stealthy and robust. This work reveals a critical, previously unexplored vulnerability where reasoning efficiency can be covertly manipulated, demonstrating a new class of sophisticated attacks against CoT-enabled systems.
- Abstract(参考訳): 近年のChain-of-Thought(CoT)の進歩により,大規模言語モデル(LLM)の推論能力は大幅に向上したが,新たな攻撃面として計算効率が導入された。
本稿では,CoT 対応 LLM において,盗難の確保を図った最初のバックドア攻撃である BadThink を提案する。
慎重に作成されたトリガープロンプトによって起動されると、BadThinkはモデルを操作して膨らませた推論トレースを生成し、最終的な出力の一貫性を維持しながら、不要に冗長な思考プロセスを生成する。
この微妙な攻撃ベクトルは、従来の出力評価手法による検出が困難でありながら、計算コストと推論時間を著しく向上させる性能劣化の隠蔽形式を生成する。
我々はこの攻撃を、高自然主義的な有毒データを生成することによって、新しいLCMに基づく反復最適化プロセスを用いて、高度に毒を盛った微調整戦略によって実施する。
複数の最先端モデルと推論タスクに関する我々の実験は、BadThinkが一貫してトレース長の推論を増加(MATH-500データセットの17倍以上増加)しつつ、ステルス性と堅牢性を維持していることを示している。
この研究は、推理効率を隠蔽的に操作し、CoT対応システムに対する新たな高度な攻撃のクラスを実証する、重要な未発見の脆弱性を明らかにしている。
関連論文リスト
- One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - POT: Inducing Overthinking in LLMs via Black-Box Iterative Optimization [28.771942726400084]
我々は,ブラックボックス攻撃フレームワークのPOT(Prompt-Only OverThinking)を提案する。
PoTは他の方法に比べて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-08-23T16:27:42Z) - BadReasoner: Planting Tunable Overthinking Backdoors into Large Reasoning Models for Fun or Profit [12.189197763012409]
大規模言語モデル(LRM)は人工知能の重要な進歩として現れている。
本稿では,LRMに対する未探索攻撃ベクトルを同定し,これを「過度なチューナブル」と呼ぶ。
そこで本研究では,単純なオン/オフ攻撃を超越して,攻撃者がモデルの推論冗長性の範囲を正確に制御できるような,新たな調整可能なバックドアを提案する。
論文 参考訳(メタデータ) (2025-07-24T11:24:35Z) - When LLMs Copy to Think: Uncovering Copy-Guided Attacks in Reasoning LLMs [30.532439965854767]
大規模言語モデル(LLM)は、脆弱性検出やコード理解といったタスクを可能にする自動コード解析に不可欠なものになっている。
本稿では,CGA(Copy-Guided Attacks)と呼ばれる,新たなプロンプトベースの攻撃のクラスを特定し,検討する。
CGAは、コード解析タスクにおいて、無限ループ、早期終了、偽の拒絶、意味的歪みを確実に誘導することを示す。
論文 参考訳(メタデータ) (2025-07-22T17:21:36Z) - Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。