論文の概要: BoT: Breaking Long Thought Processes of o1-like Large Language Models through Backdoor Attack
- arxiv url: http://arxiv.org/abs/2502.12202v1
- Date: Sun, 16 Feb 2025 10:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:30.228793
- Title: BoT: Breaking Long Thought Processes of o1-like Large Language Models through Backdoor Attack
- Title(参考訳): BoT: バックドア攻撃によるo1のような大規模言語モデルの長い思考プロセスを破る
- Authors: Zihao Zhu, Hongbao Zhang, Mingda Zhang, Ruotong Wang, Guanzong Wu, Ke Xu, Baoyuan Wu,
- Abstract要約: 我々は,o1-likeモデルの長い思考過程をターゲットとした,新たな攻撃シナリオを提案する。
バックドア攻撃による内在的推論機構を選択的に破壊できるBoTを提案する。
最近のDeepSeek-R1を含むオープンソースのo1-likeモデルの実験では、BoTが高い攻撃成功率をほぼ達成していることが示された。
- 参考スコア(独自算出の注目度): 36.89710026479849
- License:
- Abstract: Longer thought, better performance: large language models with deep reasoning capabilities, particularly o1-like models, have demonstrated remarkable performance by generating extensive thought processes during inference. This trade-off reveals a potential vulnerability: adversaries could compromise model performance by forcing immediate responses without thought processes. To this end, in this paper, we introduce a novel attack scenario targeting the long thought processes of o1-like models and propose BoT (Break CoT), which can selectively break intrinsic reasoning mechanisms through backdoor attacks. BoT constructs poisoned datasets with designed triggers and injects backdoor by either supervised fine-tuning or direct preference optimization. When triggered, the model directly generates answers without thought processes, while maintaining normal reasoning capabilities for clean inputs. Extensive experiments on open-source o1-like models, including recent DeepSeek-R1, demonstrate that BoT nearly achieves high attack success rates while maintaining clean accuracy, highlighting the critical safety risk in current models. Furthermore, the relationship between task difficulty and helpfulness reveals a potential application for good, enabling users to customize model behavior based on task complexity. Code is available at \href{https://github.com/zihao-ai/BoT}{https://github.com/zihao-ai/BoT}.
- Abstract(参考訳): より長く、より良いパフォーマンス: 深い推論能力を持つ大きな言語モデル、特にo1のようなモデルは、推論中に広範な思考プロセスを生成することで、顕著なパフォーマンスを示している。
敵は思考プロセスなしで即時応答を強制することによって、モデルのパフォーマンスを損なう可能性がある。
そこで本稿では,o1-likeモデルの長い思考過程を対象とする新たな攻撃シナリオを提案し,バックドア攻撃による内在的推論機構を選択的に破壊するBoT(Break CoT)を提案する。
BoTは、設計されたトリガで有毒なデータセットを構築し、教師付き微調整または直接選好最適化によってバックドアを注入する。
起動すると、モデルは思考プロセスなしで直接回答を生成し、クリーンな入力のための通常の推論能力を維持します。
最近のDeepSeek-R1など、オープンソースのo1-likeモデルに関する大規模な実験は、BoTがクリーンな精度を維持しながら高い攻撃成功率をほぼ達成し、現在のモデルの重大な安全性リスクを強調していることを示している。
さらに,タスクの難易度と有用度の関係から,タスクの複雑さに基づいたモデル動作のカスタマイズが可能となる可能性が示唆された。
コードは \href{https://github.com/zihao-ai/BoT}{https://github.com/zihao-ai/BoT} で公開されている。
関連論文リスト
- BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models [19.466985579720507]
大規模言語モデル(LLM)は、広範囲のタスクにおいて顕著な創発能力を示しているが、関連する高価なAPIコストは、実際のアプリケーションを大幅に制限している。
本稿では,異なるスケールのハイブリッドLLMの相乗的ポテンシャルを効率的に推論するために,「思考のシネルギー」を提案する。
SoTはAPIコストを38.3%-75.1%削減し、最先端の推論精度とソリューションの多様性を同時に達成している。
論文 参考訳(メタデータ) (2024-02-04T16:45:01Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Hijacking Attacks against Neural Networks by Analyzing Training Data [21.277867143827812]
CleanSheetは、新しいモデルハイジャック攻撃で、モデルをトレーニングする相手を必要とせずに、バックドア攻撃のハイパフォーマンスを得る。
CleanSheetはトレーニングデータから発生したタンパーの脆弱性を利用する。
CIFAR-100では平均的な攻撃成功率(ASR)が97.5%、GTSRBでは92.4%である。
論文 参考訳(メタデータ) (2024-01-18T05:48:56Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Careful What You Wish For: on the Extraction of Adversarially Trained
Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。
本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。
本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-07-21T16:04:37Z) - Backdoor Pre-trained Models Can Transfer to All [33.720258110911274]
そこで本研究では,トリガを含む入力を事前学習したNLPモデルの出力表現に直接マッピングする手法を提案する。
NLPにおけるトリガのユニークな特性を考慮して,バックドア攻撃の性能を測定するための2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2021-10-30T07:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。