論文の概要: Cordyceps: Covert Control Attacks on LLMs via Data Poisoning
- arxiv url: http://arxiv.org/abs/2605.26595v1
- Date: Tue, 26 May 2026 06:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.700552
- Title: Cordyceps: Covert Control Attacks on LLMs via Data Poisoning
- Title(参考訳): Cordyceps: データ中毒によるLLMのカバートコントロール攻撃
- Authors: Zedian Shao, Charles Fleming, Teodora Baluta,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば敵に毒を盛る未処理のテキストデータセットに基づいて微調整される。
本稿では, LLM に情報隠蔽方式を確実に, ひそかに教えるデータ中毒手法を提案する。
引き起こされた隠蔽スキームは、任意の悪意のある命令をエンコードし、デコードするので、新しく微妙な毒によって引き起こされる脆弱性が明らかになる。
- 参考スコア(独自算出の注目度): 7.104161390387404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are often fine-tuned on uncurated text datasets that adversaries can poison. Existing poisoning attacks primarily rely on fixed trigger phrases that defenses such as outlier detection, clean-data regularization, or online monitoring can neutralize. In this paper, we propose a data poisoning method that teaches an LLM an information hiding scheme reliably and stealthily through semantic associations between shared knowledge such as facts or concepts and attacker-chosen phrases. The induced hiding scheme can encode and decode arbitrary malicious instructions, thus revealing a new and subtle poisoning-induced vulnerability: covert control attacks. We precisely characterize covert control attacks and evaluate them across $5$ LLMs, $3$ backdoor defenses, and $4$ prompt injection defenses. With a small poisoned fraction, covert control attacks outperform heuristic-based prompt injection attacks in average attack success rate by about $40\%$ relative to clean fine-tuned models. They also circumvent defenses based on detection and fine-tuning, maintaining up to $93\%$ attack success rate after backdoor defenses and up to $98\%$ after prompt injection defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)は、敵が毒を盛る可能性のある未処理のテキストデータセットに基づいて微調整されることが多い。
既存の中毒攻撃は、主に、外れ値検出、クリーンデータ正規化、オンライン監視などの防御が中和できる固定されたトリガーフレーズに依存している。
本稿では,事実や概念などの共有知識と攻撃長文句とのセマンティックな関連を通して,LLMに情報隠蔽スキームを確実かつステルス的に教えるデータ中毒手法を提案する。
引き起こされた隠蔽スキームは、任意の悪意のある命令をエンコードし、デコードするので、新しく微妙な毒によって引き起こされる脆弱性が明らかになる。
5ドル(約5万円)のLLM、3ドル(約3万3000円)のバックドアディフェンス、そして4ドル(約4万3000円)のインジェクションディフェンスです。
少量の毒分で、カバートコントロールは、クリーンな微調整モデルと比較して平均的な攻撃成功率で、ヒューリスティックベースのプロンプトインジェクション攻撃よりも優れる。
彼らはまた、検出と微調整に基づく防御を回避し、バックドアディフェンス後の攻撃成功率を最大9,3 %、即時インジェクションディフェンス後の9,8 %まで維持した。
関連論文リスト
- Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。
バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文 参考訳(メタデータ) (2025-10-04T07:11:11Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Certified Robustness to Clean-Label Poisoning Using Diffusion Denoising [56.04951180983087]
我々は、$ell$-normの条件で、クリーンラベル毒殺攻撃に対する認証された防御を提示する。
$randomized$$smoothingによって達成された対向的堅牢性に触発されて、オフザシェルフ拡散復調モデルが、改ざんしたトレーニングデータの衛生化をいかに行うかを示す。
論文 参考訳(メタデータ) (2024-03-18T17:17:07Z) - Learning to Poison Large Language Models for Downstream Manipulation [12.521338629194503]
この研究は、教師付き微調整プロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Beating Backdoor Attack at Its Own Game [10.106197319676294]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
既存の防御方法は、攻撃の成功率を大幅に低下させた。
有害な試料を標的とした非敵のバックドアを注入する高効率な枠組みを提案する。
論文 参考訳(メタデータ) (2023-07-28T13:07:42Z) - What Doesn't Kill You Makes You Robust(er): Adversarial Training against
Poisons and Backdoors [57.040948169155925]
敵対的なトレーニングフレームワークを拡張し、(訓練時間)中毒やバックドア攻撃から防御します。
本手法は, トレーニング中に毒を発生させ, トレーニングバッチに注入することにより, ネットワークを中毒の影響に敏感化する。
この防御は、適応攻撃に耐え、多様な脅威モデルに一般化し、以前の防御よりも優れた性能のトレードオフをもたらすことを示す。
論文 参考訳(メタデータ) (2021-02-26T17:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。