論文の概要: BoT: Breaking Long Thought Processes of o1-like Large Language Models through Backdoor Attack
- arxiv url: http://arxiv.org/abs/2502.12202v1
- Date: Sun, 16 Feb 2025 10:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:30.228793
- Title: BoT: Breaking Long Thought Processes of o1-like Large Language Models through Backdoor Attack
- Title(参考訳): BoT: バックドア攻撃によるo1のような大規模言語モデルの長い思考プロセスを破る
- Authors: Zihao Zhu, Hongbao Zhang, Mingda Zhang, Ruotong Wang, Guanzong Wu, Ke Xu, Baoyuan Wu,
- Abstract要約: 我々は,o1-likeモデルの長い思考過程をターゲットとした,新たな攻撃シナリオを提案する。
バックドア攻撃による内在的推論機構を選択的に破壊できるBoTを提案する。
最近のDeepSeek-R1を含むオープンソースのo1-likeモデルの実験では、BoTが高い攻撃成功率をほぼ達成していることが示された。
- 参考スコア(独自算出の注目度): 36.89710026479849
- License:
- Abstract: Longer thought, better performance: large language models with deep reasoning capabilities, particularly o1-like models, have demonstrated remarkable performance by generating extensive thought processes during inference. This trade-off reveals a potential vulnerability: adversaries could compromise model performance by forcing immediate responses without thought processes. To this end, in this paper, we introduce a novel attack scenario targeting the long thought processes of o1-like models and propose BoT (Break CoT), which can selectively break intrinsic reasoning mechanisms through backdoor attacks. BoT constructs poisoned datasets with designed triggers and injects backdoor by either supervised fine-tuning or direct preference optimization. When triggered, the model directly generates answers without thought processes, while maintaining normal reasoning capabilities for clean inputs. Extensive experiments on open-source o1-like models, including recent DeepSeek-R1, demonstrate that BoT nearly achieves high attack success rates while maintaining clean accuracy, highlighting the critical safety risk in current models. Furthermore, the relationship between task difficulty and helpfulness reveals a potential application for good, enabling users to customize model behavior based on task complexity. Code is available at \href{https://github.com/zihao-ai/BoT}{https://github.com/zihao-ai/BoT}.
- Abstract(参考訳): より長く、より良いパフォーマンス: 深い推論能力を持つ大きな言語モデル、特にo1のようなモデルは、推論中に広範な思考プロセスを生成することで、顕著なパフォーマンスを示している。
敵は思考プロセスなしで即時応答を強制することによって、モデルのパフォーマンスを損なう可能性がある。
そこで本稿では,o1-likeモデルの長い思考過程を対象とする新たな攻撃シナリオを提案し,バックドア攻撃による内在的推論機構を選択的に破壊するBoT(Break CoT)を提案する。
BoTは、設計されたトリガで有毒なデータセットを構築し、教師付き微調整または直接選好最適化によってバックドアを注入する。
起動すると、モデルは思考プロセスなしで直接回答を生成し、クリーンな入力のための通常の推論能力を維持します。
最近のDeepSeek-R1など、オープンソースのo1-likeモデルに関する大規模な実験は、BoTがクリーンな精度を維持しながら高い攻撃成功率をほぼ達成し、現在のモデルの重大な安全性リスクを強調していることを示している。
さらに,タスクの難易度と有用度の関係から,タスクの複雑さに基づいたモデル動作のカスタマイズが可能となる可能性が示唆された。
コードは \href{https://github.com/zihao-ai/BoT}{https://github.com/zihao-ai/BoT} で公開されている。
関連論文リスト
- The dark deep side of DeepSeek: Fine-tuning attacks against the safety alignment of CoT-enabled models [10.524960491460945]
微調整攻撃は、潜在的に有害な振る舞いを明らかにするために、大きな言語モデルを利用することができる。
本稿では、微調整攻撃を受けた場合の思考の連鎖に基づく推論モデルDeepSeekの性能について検討する。
思考の連鎖(Chain of Thought)の脆弱性に光を当てて、微調整による攻撃と、その安全性と倫理的展開に影響を及ぼすことを目指している。
論文 参考訳(メタデータ) (2025-02-03T10:28:26Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models [19.466985579720507]
大規模言語モデル(LLM)は、広範囲のタスクにおいて顕著な創発能力を示しているが、関連する高価なAPIコストは、実際のアプリケーションを大幅に制限している。
本稿では,異なるスケールのハイブリッドLLMの相乗的ポテンシャルを効率的に推論するために,「思考のシネルギー」を提案する。
SoTはAPIコストを38.3%-75.1%削減し、最先端の推論精度とソリューションの多様性を同時に達成している。
論文 参考訳(メタデータ) (2024-02-04T16:45:01Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Careful What You Wish For: on the Extraction of Adversarially Trained
Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。
本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。
本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-07-21T16:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。