論文の概要: ShadowLogic: Backdoors in Any Whitebox LLM
- arxiv url: http://arxiv.org/abs/2511.00664v1
- Date: Sat, 01 Nov 2025 19:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.885253
- Title: ShadowLogic: Backdoors in Any Whitebox LLM
- Title(参考訳): ShadowLogic: あらゆるホワイトボックス LLM のバックドア
- Authors: Kasimir Schulz, Amelia Kawasaki, Leo Ring,
- Abstract要約: 大規模言語モデル(LLM)は様々なアプリケーションに広くデプロイされており、有害なコンテンツや制限されたコンテンツの発生を防ぐための安全策がしばしばある。
この研究は、計算グラフベースのLLMフォーマットにおける重要なセキュリティ脆弱性を強調している。
そこで我々は,非検閲ベクトルを計算グラフ表現に注入することにより,White-box LLMでバックドアを作成する方法であるShadowLogicを紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are widely deployed across various applications, often with safeguards to prevent the generation of harmful or restricted content. However, these safeguards can be covertly bypassed through adversarial modifications to the computational graph of a model. This work highlights a critical security vulnerability in computational graph-based LLM formats, demonstrating that widely used deployment pipelines may be susceptible to obscured backdoors. We introduce ShadowLogic, a method for creating a backdoor in a white-box LLM by injecting an uncensoring vector into its computational graph representation. We set a trigger phrase that, when added to the beginning of a prompt into the LLM, applies the uncensoring vector and removes the content generation safeguards in the model. We embed trigger logic directly into the computational graph which detects the trigger phrase in a prompt. To evade detection of our backdoor, we obfuscate this logic within the graph structure, making it similar to standard model functions. Our method requires minimal alterations to model parameters, making backdoored models appear benign while retaining the ability to generate uncensored responses when activated. We successfully implement ShadowLogic in Phi-3 and Llama 3.2, using ONNX for manipulating computational graphs. Implanting the uncensoring vector achieved a >60% attack success rate for further malicious queries.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なアプリケーションに広くデプロイされており、有害なコンテンツや制限されたコンテンツの発生を防ぐための安全策がしばしばある。
しかし、これらのセーフガードは、モデルの計算グラフに対する逆修正によって隠蔽的にバイパスすることができる。
この研究は、計算グラフベースのLLMフォーマットにおける重要なセキュリティ脆弱性を強調し、広く使用されているデプロイメントパイプラインが、あいまいなバックドアの影響を受けやすいことを実証している。
そこで我々は,非検閲ベクトルを計算グラフ表現に注入することにより,White-box LLMでバックドアを作成する方法であるShadowLogicを紹介した。
LLMにプロンプトの先頭に追加すると、無検閲ベクトルを適用して、モデル内のコンテンツ生成の保護を除去するトリガーフレーズを設定した。
インプロンプト中のトリガーフレーズを検出する計算グラフに直接トリガー論理を埋め込む。
バックドアの検出を避けるため、このロジックをグラフ構造内で難解化し、標準的なモデル関数に類似させる。
本手法では, モデルパラメータに対する最小限の変更が必要であり, アクティベート時に無検閲応答を生成する能力を維持しながら, バックドアモデルが良さそうである。
Phi-3とLlama 3.2でShadowLogicの実装に成功し,計算グラフの操作にONNXを用いた。
非検閲ベクターを挿入すると、さらに悪意のあるクエリに対する攻撃成功率が60%に達した。
関連論文リスト
- Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - Large Language Models Can Verbatim Reproduce Long Malicious Sequences [23.0516001201445]
機械学習モデルに対するバックドア攻撃は、広く研究されている。
本稿では,大規模言語モデルにおけるバックドア攻撃の概念を再検討する。
ターゲット入力のトリガによって、$leq100$のハードコードキーを含む任意の応答を再生できることが判明した。
論文 参考訳(メタデータ) (2025-03-21T23:24:49Z) - When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に弱いことが知られている。
本稿では,自然言語説明の新しいレンズによるバックドア攻撃について検討する。
以上の結果から,バックドアモデルではクリーンな入力に対してコヒーレントな説明が得られたが,有毒なデータに対して多様かつ論理的に欠陥のある説明が得られた。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - MEGen: Generative Backdoor into Large Language Models via Model Editing [36.67048791892558]
本稿では,バックドア型大規模言語モデル(LLM)の影響に焦点を当てる。
生成タスクへのバックドア拡張を目的とした,編集ベースの生成バックドアMEGenを提案する。
実験の結果,MEGenは局所パラメータの小さなセットだけを調整することで,高い攻撃成功率を達成することがわかった。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - Transferring Backdoors between Large Language Models by Knowledge Distillation [2.9138150728729064]
バックドア攻撃は大規模言語モデル(LLM)に対する深刻な脆弱性である。
従来の手法では、特定のモデルでのみそのようなリスクを明らかにしたり、事前訓練されたフェーズを攻撃した後のタスク転送可能性を示す。
本研究では,教師LLMのバックドアを小型モデルに効果的に蒸留できる適応的トランスファー可能なバックドアアタックであるATBAを提案する。
論文 参考訳(メタデータ) (2024-08-19T10:39:45Z) - Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers [29.554818890832887]
大規模言語モデル(LLM)は、長いコンテキスト長を処理し、テキストでニュアンスを理解する能力を獲得した。
本稿では,LDMのマルチターン機能と強力な学習能力を利用してエンドユーザを害する脆弱性を明らかにする。
本稿では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2024-07-04T20:57:06Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Motif-Backdoor: Rethinking the Backdoor Attack on Graph Neural Networks
via Motifs [1.9109292348200242]
強力な表現能力を持つグラフニューラルネットワーク(GNN)は、生物学的遺伝子予測やソーシャルレコメンデーションなど、さまざまな領域に広く適用されている。
近年の研究では、GNNがバックドア攻撃に対して脆弱であること、すなわち悪意あるトレーニングサンプルで訓練されたモデルは、パッチされたサンプルによって容易に騙される。
提案された研究の多くは、計算負担の少ないランダムに生成されたサブグラフ(例: erdHos-r'enyi backdoor)または勾配に基づく生成サブグラフ(例: gradient-based generative subgraph)を使用してバックドア攻撃を起動する。
論文 参考訳(メタデータ) (2022-10-25T02:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。