論文の概要: Thought-Transfer: Indirect Targeted Poisoning Attacks on Chain-of-Thought Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.19061v1
- Date: Tue, 27 Jan 2026 00:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.107958
- Title: Thought-Transfer: Indirect Targeted Poisoning Attacks on Chain-of-Thought Reasoning Models
- Title(参考訳): Thought-Transfer: チェーン・オブ・ソート推論モデルによる間接的標的毒殺攻撃
- Authors: Harsh Chaudhari, Ethan Rathbum, Hanna Foerster, Jamie Hayes, Matthew Jagielski, Milad Nasr, Ilia Shumailov, Alina Oprea,
- Abstract要約: CoT(Chain-of-Thought)推論は,大規模言語モデルの能力向上のための強力なテクニックとして登場した。
我々の研究は、推論モデルにおける新しいタイプの間接的ターゲット・ポジショニング攻撃を公表した。
- 参考スコア(独自算出の注目度): 45.25221859647717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning has emerged as a powerful technique for enhancing large language models' capabilities by generating intermediate reasoning steps for complex tasks. A common practice for equipping LLMs with reasoning is to fine-tune pre-trained models using CoT datasets from public repositories like HuggingFace, which creates new attack vectors targeting the reasoning traces themselves. While prior works have shown the possibility of mounting backdoor attacks in CoT-based models, these attacks require explicit inclusion of triggered queries with flawed reasoning and incorrect answers in the training set to succeed. Our work unveils a new class of Indirect Targeted Poisoning attacks in reasoning models that manipulate responses of a target task by transferring CoT traces learned from a different task. Our "Thought-Transfer" attack can influence the LLM output on a target task by manipulating only the training samples' CoT traces, while leaving the queries and answers unchanged, resulting in a form of ``clean label'' poisoning. Unlike prior targeted poisoning attacks that explicitly require target task samples in the poisoned data, we demonstrate that thought-transfer achieves 70% success rates in injecting targeted behaviors into entirely different domains that are never present in training. Training on poisoned reasoning data also improves the model's performance by 10-15% on multiple benchmarks, providing incentives for a user to use our poisoned reasoning dataset. Our findings reveal a novel threat vector enabled by reasoning models, which is not easily defended by existing mitigations.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、複雑なタスクの中間的推論ステップを生成することで、大規模言語モデルの能力を高める強力な手法として登場した。
推論でLLMをマウントする一般的なプラクティスは、HuggingFaceのような公開リポジトリからCoTデータセットを使用して、事前トレーニングされたモデルを微調整することである。
以前の研究では、CoTベースのモデルにバックドアアタックを導入する可能性を示しているが、これらのアタックは、トレーニングセットが成功するには、欠陥のある推論と誤った回答を備えたトリガクエリを明示的に含めなければならない。
我々の研究は、異なるタスクから学習したCoTトレースを転送することで、ターゲットタスクの応答を操作するモデルを推論する、新しいタイプの間接的ターゲットポジショニング攻撃を公表した。
我々の"Thought-Transfer"攻撃は、トレーニングサンプルのCoTトレースのみを操作しながら、クエリと回答をそのまま残して、目標タスクのLLM出力に影響を与える可能性がある。
有毒データ中の対象のタスクサンプルを明示的に要求する以前の標的の攻撃とは異なり、思考伝達はトレーニングに存在しない全く異なる領域に標的の振る舞いを注入することで70%の成功率を達成することを示した。
有毒な推論データのトレーニングはまた、複数のベンチマークでモデルのパフォーマンスを10~15%向上させ、ユーザが有毒な推論データセットを使用するためのインセンティブを提供する。
本研究は,既存の緩和策によって容易には防御できないモデルにより,新たな脅威ベクトルが実現されたことを示す。
関連論文リスト
- Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。
本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:01:35Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Wicked Oddities: Selectively Poisoning for Effective Clean-Label Backdoor Attacks [11.390175856652856]
クリーンラベル攻撃は、毒性のあるデータのラベルを変更することなく攻撃を行うことができる、よりステルスなバックドア攻撃である。
本研究は,攻撃成功率を高めるために,標的クラス内の少数の訓練サンプルを選択的に毒殺する方法について検討した。
私たちの脅威モデルは、サードパーティのデータセットで機械学習モデルをトレーニングする上で深刻な脅威となる。
論文 参考訳(メタデータ) (2024-07-15T15:38:21Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - Poisoning Network Flow Classifiers [10.055241826257083]
本稿では,ネットワークトラフィックフロー分類器に対する毒性攻撃,特にバックドア攻撃に焦点を当てた。
学習データのみを改ざんすることを相手の能力に制約するクリーンラベル中毒の難易度シナリオについて検討した。
本稿では, モデル解釈可能性を利用したトリガー製作戦略について述べる。
論文 参考訳(メタデータ) (2023-06-02T16:24:15Z) - Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。
我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。
実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文 参考訳(メタデータ) (2021-03-06T05:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。