論文の概要: BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.10714v1
- Date: Thu, 13 Nov 2025 13:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.297729
- Title: BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models
- Title(参考訳): BadThink: 大規模言語モデルにおけるチェーン・オブ・ソート・推論の攻撃について再考
- Authors: Shuaitong Liu, Renjue Li, Lijia Yu, Lijun Zhang, Zhiming Liu, Gaojie Jin,
- Abstract要約: 我々はBadThinkを提案する。BadThinkは、大規模言語モデルにおいて、意図的に「過度な」振る舞いを誘発するように設計された最初のバックドア攻撃である。
慎重に作成されたトリガープロンプトによってアクティベートされると、BadThinkはモデルを操作して膨らませた推論トレースを生成する。
我々はこの攻撃を、高度な毒をベースとした微調整戦略によって実施する。
- 参考スコア(独自算出の注目度): 24.513640096951566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Chain-of-Thought (CoT) prompting have substantially improved the reasoning capabilities of large language models (LLMs), but have also introduced their computational efficiency as a new attack surface. In this paper, we propose BadThink, the first backdoor attack designed to deliberately induce "overthinking" behavior in CoT-enabled LLMs while ensuring stealth. When activated by carefully crafted trigger prompts, BadThink manipulates the model to generate inflated reasoning traces - producing unnecessarily redundant thought processes while preserving the consistency of final outputs. This subtle attack vector creates a covert form of performance degradation that significantly increases computational costs and inference time while remaining difficult to detect through conventional output evaluation methods. We implement this attack through a sophisticated poisoning-based fine-tuning strategy, employing a novel LLM-based iterative optimization process to embed the behavior by generating highly naturalistic poisoned data. Our experiments on multiple state-of-the-art models and reasoning tasks show that BadThink consistently increases reasoning trace lengths - achieving an over 17x increase on the MATH-500 dataset - while remaining stealthy and robust. This work reveals a critical, previously unexplored vulnerability where reasoning efficiency can be covertly manipulated, demonstrating a new class of sophisticated attacks against CoT-enabled systems.
- Abstract(参考訳): 近年のChain-of-Thought(CoT)の進歩により,大規模言語モデル(LLM)の推論能力は大幅に向上したが,新たな攻撃面として計算効率が導入された。
本稿では,CoT 対応 LLM において,盗難の確保を図った最初のバックドア攻撃である BadThink を提案する。
慎重に作成されたトリガープロンプトによって起動されると、BadThinkはモデルを操作して膨らませた推論トレースを生成し、最終的な出力の一貫性を維持しながら、不要に冗長な思考プロセスを生成する。
この微妙な攻撃ベクトルは、従来の出力評価手法による検出が困難でありながら、計算コストと推論時間を著しく向上させる性能劣化の隠蔽形式を生成する。
我々はこの攻撃を、高自然主義的な有毒データを生成することによって、新しいLCMに基づく反復最適化プロセスを用いて、高度に毒を盛った微調整戦略によって実施する。
複数の最先端モデルと推論タスクに関する我々の実験は、BadThinkが一貫してトレース長の推論を増加(MATH-500データセットの17倍以上増加)しつつ、ステルス性と堅牢性を維持していることを示している。
この研究は、推理効率を隠蔽的に操作し、CoT対応システムに対する新たな高度な攻撃のクラスを実証する、重要な未発見の脆弱性を明らかにしている。
関連論文リスト
- Thought-Transfer: Indirect Targeted Poisoning Attacks on Chain-of-Thought Reasoning Models [46.18909391478578]
CoT(Chain-of-Thought)推論は,大規模言語モデルの能力向上のための強力なテクニックとして登場した。
我々の研究は、推論モデルにおける新しいタイプの間接的ターゲット・ポジショニング攻撃を公表した。
論文 参考訳(メタデータ) (2026-01-27T00:46:24Z) - Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。
本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。
STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文 参考訳(メタデータ) (2026-01-24T19:36:51Z) - STAR: Detecting Inference-time Backdoors in LLM Reasoning via State-Transition Amplification Ratio [3.5612678889511016]
出力確率シフトを解析してバックドアを検出するフレームワークSTAR(State-Transition Amplification Ratio)を提案する。
我々は、この状態遷移増幅を定量化し、CUSUMアルゴリズムを用いて永続的な異常を検出する。
多様なモデルと5つのベンチマークデータセットによる実験は、STARが堅牢な一般化能力を示すことを示している。
論文 参考訳(メタデータ) (2026-01-13T12:51:13Z) - Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - POT: Inducing Overthinking in LLMs via Black-Box Iterative Optimization [28.771942726400084]
我々は,ブラックボックス攻撃フレームワークのPOT(Prompt-Only OverThinking)を提案する。
PoTは他の方法に比べて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-08-23T16:27:42Z) - BadReasoner: Planting Tunable Overthinking Backdoors into Large Reasoning Models for Fun or Profit [12.189197763012409]
大規模言語モデル(LRM)は人工知能の重要な進歩として現れている。
本稿では,LRMに対する未探索攻撃ベクトルを同定し,これを「過度なチューナブル」と呼ぶ。
そこで本研究では,単純なオン/オフ攻撃を超越して,攻撃者がモデルの推論冗長性の範囲を正確に制御できるような,新たな調整可能なバックドアを提案する。
論文 参考訳(メタデータ) (2025-07-24T11:24:35Z) - When LLMs Copy to Think: Uncovering Copy-Guided Attacks in Reasoning LLMs [30.532439965854767]
大規模言語モデル(LLM)は、脆弱性検出やコード理解といったタスクを可能にする自動コード解析に不可欠なものになっている。
本稿では,CGA(Copy-Guided Attacks)と呼ばれる,新たなプロンプトベースの攻撃のクラスを特定し,検討する。
CGAは、コード解析タスクにおいて、無限ループ、早期終了、偽の拒絶、意味的歪みを確実に誘導することを示す。
論文 参考訳(メタデータ) (2025-07-22T17:21:36Z) - Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。