論文の概要: SBFA: Single Sneaky Bit Flip Attack to Break Large Language Models
- arxiv url: http://arxiv.org/abs/2509.21843v1
- Date: Fri, 26 Sep 2025 04:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.168857
- Title: SBFA: Single Sneaky Bit Flip Attack to Break Large Language Models
- Title(参考訳): SBFA:大きな言語モデルを破壊する単一スニーキービットフリップ攻撃
- Authors: Jingkai Guo, Chaitali Chakrabarti, Deliang Fan,
- Abstract要約: Bit-Flip攻撃はディープニューラルネットワーク(DNN)を著しく損なう
SBFA(Sneaky Bit-Flip Attack)を提案する。
パラメータ感度の基準であるImpactScoreを用いて、反復的な検索とランキングによって達成される。
- 参考スコア(独自算出の注目度): 16.379863498328955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model integrity of Large language models (LLMs) has become a pressing security concern with their massive online deployment. Prior Bit-Flip Attacks (BFAs) -- a class of popular AI weight memory fault-injection techniques -- can severely compromise Deep Neural Networks (DNNs): as few as tens of bit flips can degrade accuracy toward random guessing. Recent studies extend BFAs to LLMs and reveal that, despite the intuition of better robustness from modularity and redundancy, only a handful of adversarial bit flips can also cause LLMs' catastrophic accuracy degradation. However, existing BFA methods typically focus on either integer or floating-point models separately, limiting attack flexibility. Moreover, in floating-point models, random bit flips often cause perturbed parameters to extreme values (e.g., flipping in exponent bit), making it not stealthy and leading to numerical runtime error (e.g., invalid tensor values (NaN/Inf)). In this work, for the first time, we propose SBFA (Sneaky Bit-Flip Attack), which collapses LLM performance with only one single bit flip while keeping perturbed values within benign layer-wise weight distribution. It is achieved through iterative searching and ranking through our defined parameter sensitivity metric, ImpactScore, which combines gradient sensitivity and perturbation range constrained by the benign layer-wise weight distribution. A novel lightweight SKIP searching algorithm is also proposed to greatly reduce searching complexity, which leads to successful SBFA searching taking only tens of minutes for SOTA LLMs. Across Qwen, LLaMA, and Gemma models, with only one single bit flip, SBFA successfully degrades accuracy to below random levels on MMLU and SST-2 in both BF16 and INT8 data formats. Remarkably, flipping a single bit out of billions of parameters reveals a severe security concern of SOTA LLM models.
- Abstract(参考訳): 大規模言語モデル(LLM)のモデル整合性は、大規模なオンライン展開において、セキュリティ上の懸念が強まっている。
Prior Bit-Flip Attacks (BFAs) – 一般的なAI重み付けメモリのフォールトインジェクションテクニックのクラス – は、Deep Neural Networks (DNN) を著しく損なう可能性がある。
近年の研究は、BFAをLLMに拡張し、モジュラリティと冗長性からより良いロバストさの直感にもかかわらず、LLMの破滅的な精度の劣化を引き起こすのは、少数の逆ビットフリップのみであることを示した。
しかしながら、既存のBFAメソッドは通常、整数または浮動小数点モデルに個別にフォーカスし、攻撃の柔軟性を制限する。
さらに浮動小数点モデルでは、乱数ビットフリップはしばしば摂動パラメータを極端な値(例:指数ビットの反転)にし、ステルスではなく、数値的な実行エラー(例:無効テンソル値(NaN/Inf))を引き起こす。
本研究では,SBFA (Sneaky Bit-Flip Attack) を初めて提案し,一ビットフリップのみでLCM性能を損なうとともに,摂動値を良層単位の重み分布内に保持する手法を提案する。
勾配感度と摂動範囲を結合したパラメータ感度測定値であるImpactScoreを用いて, パラメータ感度の反復探索とランク付けを行う。
また,より軽量なSKIP探索アルゴリズムも提案され,SOTA LLMの探索に10分しかかからないSBFA探索に成功した。
Qwen、LLaMA、Gemmaの各モデルでは1ビットフリップしかなく、SBFAはBF16とINT8のデータフォーマットでMMLUとSST-2のランダムレベル以下に精度を低下させることに成功した。
注目すべきは、数十億のパラメータから1ビットを切り替えることによって、SOTA LLMモデルに対する深刻なセキュリティ上の懸念が浮かび上がっていることだ。
関連論文リスト
- MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。
既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。
MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文 参考訳(メタデータ) (2025-06-15T15:02:59Z) - ObfusBFA: A Holistic Approach to Safeguarding DNNs from Different Types of Bit-Flip Attacks [12.96840649714218]
ビットフリップ攻撃(BFA)はディープニューラルネットワーク(DNN)にとって深刻な脅威である
本稿では,BFAを効果的かつ包括的に緩和するObfusBFAを提案する。
臨界ビットを識別し,難読化操作を挿入する新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-06-12T14:31:27Z) - GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs [3.967858172081495]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
ミッションクリティカルなアプリケーションの採用が増えると、ハードウェアベースの脅威、特にビットフリップ攻撃(BFA)に対する懸念が高まる。
論文 参考訳(メタデータ) (2024-11-21T00:01:51Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。
本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文 参考訳(メタデータ) (2023-08-12T09:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。