論文の概要: FlipLLM: Efficient Bit-Flip Attacks on Multimodal LLMs using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.09872v1
- Date: Wed, 10 Dec 2025 17:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.625139
- Title: FlipLLM: Efficient Bit-Flip Attacks on Multimodal LLMs using Reinforcement Learning
- Title(参考訳): FlipLLM:強化学習を用いたマルチモーダルLLMにおける効率的なビットフリップ攻撃
- Authors: Khurram Khalil, Khaza Anuarul Hoque,
- Abstract要約: FlipLLMは、BFA発見をシーケンシャルな意思決定問題として定式化するフレームワークである。
FlipLLMは、SOTA法よりも2.5倍高速なBFAに対して脆弱な臨界ビットを識別できることを示す。
ECC SECDEDなどの標準的なハードウェア保護機構をFlipLLMで識別されたビット位置に適用することで、BFAの影響を完全に緩和する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative Artificial Intelligence models, such as Large Language Models (LLMs) and Large Vision Models (VLMs), exhibit state-of-the-art performance but remain vulnerable to hardware-based threats, specifically bit-flip attacks (BFAs). Existing BFA discovery methods lack generalizability and struggle to scale, often failing to analyze the vast parameter space and complex interdependencies of modern foundation models in a reasonable time. This paper proposes FlipLLM, a reinforcement learning (RL) architecture-agnostic framework that formulates BFA discovery as a sequential decision-making problem. FlipLLM combines sensitivity-guided layer pruning with Q-learning to efficiently identify minimal, high-impact bit sets that can induce catastrophic failure. We demonstrate the effectiveness and generalizability of FlipLLM by applying it to a diverse set of models, including prominent text-only LLMs (GPT-2 Large, LLaMA 3.1 8B, and DeepSeek-V2 7B), VLMs such as LLaVA 1.6, and datasets, such as MMLU, MMLU-Pro, VQAv2, and TextVQA. Our results show that FlipLLM can identify critical bits that are vulnerable to BFAs up to 2.5x faster than SOTA methods. We demonstrate that flipping the FlipLLM-identified bits plummets the accuracy of LLaMA 3.1 8B from 69.9% to ~0.2%, and for LLaVA's VQA score from 78% to almost 0%, by flipping as few as 5 and 7 bits, respectively. Further analysis reveals that applying standard hardware protection mechanisms, such as ECC SECDED, to the FlipLLM-identified bit locations completely mitigates the BFA impact, demonstrating the practical value of our framework in guiding hardware-level defenses. FlipLLM offers the first scalable and adaptive methodology for exploring the BFA vulnerability of both language and multimodal foundation models, paving the way for comprehensive hardware-security evaluation.
- Abstract(参考訳): LLM(Large Language Models)やVLM(Large Vision Models)のような生成的人工知能モデルは、最先端のパフォーマンスを示すが、ハードウェアベースの脅威、特にビットフリップ攻撃(BFA)に弱いままである。
既存のBFA発見手法には一般化可能性やスケールの難しさが欠けており、しばしば現代的な基礎モデルの膨大なパラメータ空間と複雑な相互依存性を合理的に分析することができない。
本稿では,BFA発見を逐次決定問題として定式化する強化学習(RL)アーキテクチャに依存しないフレームワークであるFlipLLMを提案する。
FlipLLMは感度誘導層プルーニングとQラーニングを組み合わせることで、破滅的な障害を引き起こす最小限の高インパクトビットセットを効率的に識別する。
テキストのみのLLM(GPT-2 Large, LLaMA 3.1 8B, DeepSeek-V2 7B)やLLaVA 1.6などのVLM, MMLU, MMLU-Pro, VQAv2, TextVQAなどのデータセットなど,多種多様なモデルに適用することで, FlipLLMの有効性と一般化性を実証した。
その結果、FlipLLMはSOTA法に比べて最大2.5倍の速度でBFAに弱い臨界ビットを識別できることがわかった。
また,LLaVAのVQAスコアを78%から0%に,それぞれ5ビットと7ビットで反転させることで,FlipLLM識別ビットの反転がLLaMA 3.1 8Bの精度を69.9%から0.2%に低下させることを示した。
さらに、ECC SECDEDなどの標準ハードウェア保護機構をFlipLLM識別ビット位置に適用することにより、BFAの影響を完全に軽減し、ハードウェアレベルの防御を導く上での我々のフレームワークの実用的価値を示す。
FlipLLMは、言語およびマルチモーダル基盤モデルのBFA脆弱性を探索するための、最初のスケーラブルで適応的な方法論を提供する。
関連論文リスト
- SBFA: Single Sneaky Bit Flip Attack to Break Large Language Models [16.379863498328955]
Bit-Flip攻撃はディープニューラルネットワーク(DNN)を著しく損なう
SBFA(Sneaky Bit-Flip Attack)を提案する。
パラメータ感度の基準であるImpactScoreを用いて、反復的な検索とランキングによって達成される。
論文 参考訳(メタデータ) (2025-09-26T04:03:53Z) - Exploring the limits of strong membership inference attacks on large language models [70.49900359876595]
最先端メンバーシップ推論攻撃 (MIA) は通常、多くの参照モデルを訓練する必要がある。
事前訓練された言語モデルでは強力なMIAが成功するが,その有効性は限られている。
論文 参考訳(メタデータ) (2025-05-24T16:23:43Z) - Boosting Large Language Models with Mask Fine-Tuning [60.56962908455601]
Mask Fine-Tuning (MFT)を導入し、モデルの整合性を適切に破壊すると驚くほど性能が向上することを示した。
MFTは様々なドメインやバックボーンで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-03-27T20:17:57Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs [3.967858172081495]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
ミッションクリティカルなアプリケーションの採用が増えると、ハードウェアベースの脅威、特にビットフリップ攻撃(BFA)に対する懸念が高まる。
論文 参考訳(メタデータ) (2024-11-21T00:01:51Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。