論文の概要: Trusted Weights, Treacherous Optimizations? Optimization-Triggered Backdoor Attacks on LLMs
- arxiv url: http://arxiv.org/abs/2605.20641v1
- Date: Wed, 20 May 2026 02:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.448646
- Title: Trusted Weights, Treacherous Optimizations? Optimization-Triggered Backdoor Attacks on LLMs
- Title(参考訳): 信頼度, トラヒック最適化? : LLMにおける最適化トリガーバックドアアタック
- Authors: Yifei Wang, Tianlin Li, Xiaohan Zhang, Yida Yang, Xiaoyu Zhang, Li Pan,
- Abstract要約: 本稿では2つの相補的戦略からなる統合最適化トリガー攻撃フレームワークを提案する。
ある戦略は、モデルがコンパイルされたときにのみ、特定の入力の予測を反転させる。
もうひとつは、コンパイルされていない実行では停止しないが、コンパイルの最適化が適用されれば任意の入力をハイジャックするユニバーサルトリガーである。
- 参考スコア(独自算出の注目度): 23.226094056337075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference optimization is a vital technique for deploying LLMs at scale. Compilation is the most widely adopted optimization technique for LLMs. While it assumes semantic equivalence between the original and compiled graphs, we first uncover its numerical side effects can be maliciously exploited to implant stealthy backdoors in LLMs. We propose a unified optimization-triggered attack framework comprising two complementary strategies. Without any modification to the compiler or hardware, one strategy flips predictions for specific inputs only when the model is compiled, while the other uses a universal trigger that remains dormant under uncompiled execution but hijacks arbitrary inputs once compilation optimization is applied. Both attacks bypass standard safety evaluations run without compilation. We empirically demonstrate that these optimization-triggered backdoors achieve attack success rates averaging 90% across four mainstream open-source LLMs and four tasks, while clean accuracy is preserved at nearly 100% under all settings. Our findings reveal a novel attack surface at the intersection of optimization and security in the LLM deployment pipeline, and we investigate practical defenses to mitigate this threat.
- Abstract(参考訳): 推論最適化はLLMを大規模に展開する上で重要な手法である。
コンパイルはLLMの最も広く採用されている最適化手法である。
元のグラフとコンパイルされたグラフのセマンティックな等価性を仮定するが、まずその数値的な副作用を悪用し、LLMにステルスなバックドアを埋め込むことができる。
本稿では2つの相補的戦略からなる統合最適化トリガー攻撃フレームワークを提案する。
コンパイラやハードウェアを変更することなく、ある戦略はモデルがコンパイルされたときにのみ特定の入力の予測を反転させ、もう一方はコンパイルされていない実行時に停止するが、コンパイルの最適化が適用されれば任意の入力をハイジャックするユニバーサルトリガーを使用する。
どちらの攻撃も、コンパイルなしで実行される標準的な安全性評価をバイパスする。
これらの最適化されたバックドアは、4つの主要なオープンソースLLMと4つのタスクで平均90%の攻撃成功率を実現し、クリーンな精度は全設定で100%近く維持されていることを実証的に実証した。
本研究は,LLM配置パイプラインにおける最適化とセキュリティの交差する新たな攻撃面を明らかにし,この脅威を軽減するための実用的防御策について検討した。
関連論文リスト
- PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文 参考訳(メタデータ) (2025-11-20T10:25:45Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - An Optimizable Suffix Is Worth A Thousand Templates: Efficient Black-box Jailbreaking without Affirmative Phrases via LLM as Optimizer [33.67942887761857]
最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク法であるELIPSEを提案する。
我々は,Jailbreakの目標を自然言語命令に変換するタスクプロンプトを用いて,悪意のあるクエリに対する逆接接尾辞を生成する。
ECLIPSE は3つのオープンソース LLM と GPT-3.5-Turbo に対して平均攻撃成功率 0.92 を達成し、GCG を2.4倍に上回っている。
論文 参考訳(メタデータ) (2024-08-21T03:35:24Z) - ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。
コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。
3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - Towards Universal and Black-Box Query-Response Only Attack on LLMs with QROA [2.4578723416255754]
悪意ある命令に付加された相手の接尾辞を識別するブラックボックスジェイルブレイク手法であるQROAを紹介する。
既存のサフィックスベースのjailbreakアプローチとは異なり、QROAはモデルのロジットや他の内部情報へのアクセスを必要としない。
また,QROA-UNVは,個々のモデルに対する普遍的対角接尾辞を識別する拡張である。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Instruction Backdoor Attacks Against Customized LLMs [37.92008159382539]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
本稿では,2つの防衛戦略を提案し,その効果を実証する。
論文 参考訳(メタデータ) (2024-02-14T13:47:35Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。