論文の概要: Rotated Robustness: A Training-Free Defense against Bit-Flip Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2603.16382v1
- Date: Tue, 17 Mar 2026 11:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.237806
- Title: Rotated Robustness: A Training-Free Defense against Bit-Flip Attacks on Large Language Models
- Title(参考訳): 回転ロバスト性:大規模言語モデルにおけるビットフリップ攻撃に対する訓練自由防御
- Authors: Deng Liu, Song Chen,
- Abstract要約: ハードウェアの欠陥、特に量子化重みのビットフリップは、大規模言語モデル(LLM)に深刻な信頼性の脅威をもたらす
本稿では,家事変換を利用した無訓練防衛法であるRotated Robustness (RoR)を提案する。
RoRは真の堅牢性を実現し、実用的で信頼性の高いLLMデプロイメントを提供する。
- 参考スコア(独自算出の注目度): 3.199466551704077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hardware faults, specifically bit-flips in quantized weights, pose a severe reliability threat to Large Language Models (LLMs), often triggering catastrophic model collapses. We demonstrate that this vulnerability fundamentally stems from the spatial alignment between sensitive weight bits and extreme activation outliers, which causes a single hardware fault to be massively amplified. To address this, we propose Rotated Robustness (RoR), a training-free defense utilizing orthogonal Householder transformations. By applying an orthogonal rotation to the activation space, RoR geometrically smooths extreme outliers across all feature dimensions. This mechanism effectively breaks the alignment between outliers and vulnerable weights, mathematically guaranteeing original model accuracy. Extensive empirical evaluations across Llama-2/3, OPT, and Qwen families demonstrate the superior reliability of our approach. Under random bit-flip attacks, RoR reduces the stochastic collapse rate from 3.15\% to 0.00\% on Qwen2.5-7B. Furthermore, under severe targeted attacks with 50 Progressive Bit Search flips, RoR sustains robust reasoning on Llama-2-7B, maintaining a 43.9\% MMLU accuracy that nearly matches its 45.2\% unattacked accuracy, while competing defenses collapse to random guessing. Most notably, against the Single-Point Fault Attack (SPFA) -- the most aggressive targeted threat -- RoR exponentially inflates the attack complexity from a few bits to over 17,000 precise bit-flips. With a negligible storage overhead of 0.31\% and a minimal inference latency increase of 9.1\% on Llama-2-7B, RoR achieves true lossless robustness, providing a practical and highly reliable defense for LLM deployment.
- Abstract(参考訳): ハードウェアの欠陥、特に量子化重みのビットフリップは、大言語モデル(LLM)に深刻な信頼性を脅かし、しばしば破滅的なモデル崩壊を引き起こす。
この脆弱性は、感度の高い重みビットと極端なアクティベーションアウトリーチの空間的アライメントに起因することが実証された。
そこで本研究では,直交型世帯変換を利用した無訓練防衛法であるRotated Robustness (RoR)を提案する。
活性化空間に直交回転を適用することにより、RoRはすべての特徴次元にわたる極端外接点を幾何学的に滑らかにする。
このメカニズムは、外れ値と弱い重みの間のアライメントを効果的に破壊し、数学的に元のモデルの精度を保証します。
Llama-2/3, OPT, Qwen ファミリーを対象とする広範囲な実験的検討により, 本手法の信頼性が向上した。
ランダムなビットフリップ攻撃では、RoRはQwen2.5-7Bで確率的崩壊率を3.15\%から0.00\%に下げる。
さらに、50のプログレッシブビットサーチフリップによる厳しい標的攻撃の下で、RoRはLlama-2-7Bに対して堅牢な推論を継続し、43.9\%のMMLU精度を維持し、45.2\%の未攻撃の精度にほぼ一致する一方で、競合する防御はランダムな推測に崩壊する。
最も注目すべきは、最も攻撃的な攻撃的脅威であるシングルポイント障害攻撃(SPFA)に対して、RoRは攻撃の複雑さを数ビットから17,000以上の正確なビットフリップに指数関数的に膨らませる。
ストレージオーバーヘッドが 0.31 % で、Llama-2-7B では 9.1 % の最小推論遅延の増加により、RoR は真の損失のないロバスト性を実現し、LCM デプロイメントの実用的で信頼性の高い防御を提供する。
関連論文リスト
- BiRQA: Bidirectional Robust Quality Assessment for Images [49.74447451098852]
フル参照画像品質評価(FR IQA)は、画像圧縮、復元、生成モデリングにおいて重要である。
本稿では、双方向の多スケールピラミッド内で4つの高速補完特徴を処理するコンパクトFR IQA計量モデルであるBiRQAを提案する。
5つのパブリックFR IQAベンチマークでは、BiRQAは以前のSOTAモデルよりも3倍高速で動作しながら、以前の状態(SOTA)より優れ、あるいは一致している。
論文 参考訳(メタデータ) (2026-02-23T20:52:56Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - FAROS: Robust Federated Learning with Adaptive Scaling against Backdoor Attacks [9.466036066320946]
バックドア攻撃は連邦学習(FL)に重大な脅威をもたらす
適応微分スケーリング(ADS)とロバストコアセットコンピューティング(RCC)を組み合わせた拡張FLフレームワークであるFAROSを提案する。
RCCは、最も信頼性の高いクライアントからなるコアセットのセントロイドを計算することで、単一ポイント障害のリスクを効果的に軽減する。
論文 参考訳(メタデータ) (2026-01-05T06:55:35Z) - Replicating TEMPEST at Scale: Multi-Turn Adversarial Attacks Against Trillion-Parameter Frontier Models [0.0]
本研究では、TEMPESTマルチターン攻撃フレームワークを用いて、1000の有害な振る舞いに対して8つのベンダーから10のフロンティアモデルを評価する。
6つのモデルが96%から100%の攻撃成功率(ASR)を達成し、4つのモデルが有意な抵抗を示し、ASRは42%から78%であった。
論文 参考訳(メタデータ) (2025-12-08T00:30:40Z) - One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。
本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文 参考訳(メタデータ) (2023-08-12T09:34:43Z) - MORA: Improving Ensemble Robustness Evaluation with Model-Reweighing
Attack [26.37741124166643]
敵攻撃は、入力データに小さな摂動を加えることで、ニューラルネットワークを騙すことができる。
敵の攻撃戦略は、アンサンブル防御を確実に評価することができず、その頑健さをかなり過大評価できることを示す。
我々は, モデル勾配の重要性を再考することにより, モデル修正攻撃であるMORAを紹介した。
論文 参考訳(メタデータ) (2022-11-15T09:45:32Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Towards Adversarial Patch Analysis and Certified Defense against Crowd
Counting [61.99564267735242]
安全クリティカルな監視システムの重要性から、群衆のカウントは多くの注目を集めています。
近年の研究では、ディープニューラルネットワーク(DNN)の手法が敵の攻撃に弱いことが示されている。
群衆カウントモデルのロバスト性を評価するために,Momentumを用いた攻撃戦略としてAdversarial Patch Attackを提案する。
論文 参考訳(メタデータ) (2021-04-22T05:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。