論文の概要: SilentStriker:Toward Stealthy Bit-Flip Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2509.17371v2
- Date: Tue, 23 Sep 2025 03:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 11:50:03.94355
- Title: SilentStriker:Toward Stealthy Bit-Flip Attacks on Large Language Models
- Title(参考訳): SilentStriker:大規模言語モデルにおける定常ビットフリップ攻撃
- Authors: Haotian Xu, Qingsong Peng, Jie Shi, Huadi Zheng, Yu Li, Cheng Zhuo,
- Abstract要約: Bit-Flip Attacks (BFA) は、ハードウェア脆弱性を利用してモデルパラメータを破損させ、重大なパフォーマンス劣化を引き起こす。
既存のBFA手法では、性能劣化と出力の自然さのバランスが取れず、発見しがちである。
SilentStrikerは、出力の自然性を維持しながらタスク性能を効果的に低下させるLSMに対する最初のステルスなビットフリップ攻撃である。
- 参考スコア(独自算出の注目度): 13.200372347541142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid adoption of large language models (LLMs) in critical domains has spurred extensive research into their security issues. While input manipulation attacks (e.g., prompt injection) have been well studied, Bit-Flip Attacks (BFAs) -- which exploit hardware vulnerabilities to corrupt model parameters and cause severe performance degradation -- have received far less attention. Existing BFA methods suffer from key limitations: they fail to balance performance degradation and output naturalness, making them prone to discovery. In this paper, we introduce SilentStriker, the first stealthy bit-flip attack against LLMs that effectively degrades task performance while maintaining output naturalness. Our core contribution lies in addressing the challenge of designing effective loss functions for LLMs with variable output length and the vast output space. Unlike prior approaches that rely on output perplexity for attack loss formulation, which inevitably degrade output naturalness, we reformulate the attack objective by leveraging key output tokens as targets for suppression, enabling effective joint optimization of attack effectiveness and stealthiness. Additionally, we employ an iterative, progressive search strategy to maximize attack efficacy. Experiments show that SilentStriker significantly outperforms existing baselines, achieving successful attacks without compromising the naturalness of generated text.
- Abstract(参考訳): クリティカルドメインにおける大規模言語モデル(LLM)の急速な採用により、セキュリティ問題に関する広範な研究が進められている。
入力操作攻撃(例えば、プロンプトインジェクション)はよく研究されているが、ハードウェア脆弱性を利用してモデルパラメータを破損させ、重大なパフォーマンス劣化を引き起こすBit-Flip Attacks (BFA) は、はるかに注目されていない。
既存のBFAメソッドは、パフォーマンスの劣化と出力の自然さのバランスが取れず、発見しがちである。
本稿では,SilentStrikerについて紹介する。SilentStrikerはLLMに対する最初のステルスビットフリップ攻撃であり,出力自然性を維持しながらタスク性能を効果的に劣化させる。
我々の中核的な貢献は、可変出力長と広大な出力空間を持つLLMの効率的な損失関数を設計することの課題に対処することにある。
出力の自然性を必然的に低下させる攻撃損失定式化の出力パープレキシティに依存する従来の手法とは異なり、キー出力トークンを抑制対象として活用し、攻撃効率とステルスネスの効果的な共同最適化を可能にすることで攻撃目標を再構築する。
さらに,攻撃効率を最大化するために,反復的かつプログレッシブな探索戦略を採用する。
実験の結果、SilentStrikerは既存のベースラインを著しく上回り、生成されたテキストの自然性を損なうことなく攻撃に成功した。
関連論文リスト
- TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [71.81906608221038]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
本手法は,強力なガードレールモデルの検出下であっても,有害なコンテンツ生成のためにバックドアを様々なLSMに効果的に注入する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models [19.856128742435814]
本稿では,新たなタイプの推論コスト攻撃("bit-flip inference cost attack"と呼ばれる)を導入する。
具体的には,モデルパラメータの臨界ビットを効果的にフリップする,シンプルで効果的な手法(BitHydraと呼ばれる)を設計する。
たった4つの検索サンプルと3ビットのフリップで、BitHydraは100%のテストプロンプトを最大生成時間まで強制することができる。
論文 参考訳(メタデータ) (2025-05-22T13:36:00Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Watch Out for Your Guidance on Generation! Exploring Conditional Backdoor Attacks against Large Language Models [8.348993615202138]
大規模な言語モデル(LLM)に対するバックドア攻撃は、通常、入力インスタンスに固定されたトリガと、トリガクエリに対する特定のレスポンスを設定する。
生成条件の特定によって誘導されるLSMに対する新しい中毒パラダイムを提案する。
中毒モデルは通常、正常/他の生成条件下では出力に対して、目標生成条件下では出力に対して有害となる。
論文 参考訳(メタデータ) (2024-04-23T07:19:20Z) - Attacking Large Language Models with Projected Gradient Descent [49.19426387912186]
逆数プロンプトの射影勾配 Descent (PGD) は、最先端の離散最適化よりも最大1桁高速である。
我々のLPM用PGDは、同じ破壊的な攻撃結果を達成するために、最先端の離散最適化よりも最大1桁高速である。
論文 参考訳(メタデータ) (2024-02-14T13:13:26Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。