Fugu-MT 論文翻訳(概要): AttentionBreaker: Adaptive Evolutionary Optimization for Unmasking Vulnerabilities in LLMs through Bit-Flip Attacks

論文の概要: AttentionBreaker: Adaptive Evolutionary Optimization for Unmasking Vulnerabilities in LLMs through Bit-Flip Attacks

arxiv url: http://arxiv.org/abs/2411.13757v1
Date: Thu, 21 Nov 2024 00:01:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.674496
Title: AttentionBreaker: Adaptive Evolutionary Optimization for Unmasking Vulnerabilities in LLMs through Bit-Flip Attacks
Title（参考訳）: AttentionBreaker:ビットフリップ攻撃によるLLMのアンマキング脆弱性に対する適応的進化最適化
Authors: Sanjay Das, Swastik Bhattacharya, Souvik Kundu, Shamik Kundu, Anand Menon, Arnab Raha, Kanad Basu,
Abstract要約: 大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。ミッションクリティカルなアプリケーションの採用が増えると、ハードウェアベースの脅威、特にビットフリップ攻撃(BFA)に対する懸念が高まる。
参考スコア（独自算出の注目度）: 3.967858172081495
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have revolutionized natural language processing (NLP), excelling in tasks like text generation and summarization. However, their increasing adoption in mission-critical applications raises concerns about hardware-based threats, particularly bit-flip attacks (BFAs). BFAs, enabled by fault injection methods such as Rowhammer, target model parameters in memory, compromising both integrity and performance. Identifying critical parameters for BFAs in the vast parameter space of LLMs poses significant challenges. While prior research suggests transformer-based architectures are inherently more robust to BFAs compared to traditional deep neural networks, we challenge this assumption. For the first time, we demonstrate that as few as three bit-flips can cause catastrophic performance degradation in an LLM with billions of parameters. Current BFA techniques are inadequate for exploiting this vulnerability due to the difficulty of efficiently identifying critical parameters within the immense parameter space. To address this, we propose AttentionBreaker, a novel framework tailored for LLMs that enables efficient traversal of the parameter space to identify critical parameters. Additionally, we introduce GenBFA, an evolutionary optimization strategy designed to refine the search further, isolating the most critical bits for an efficient and effective attack. Empirical results reveal the profound vulnerability of LLMs to AttentionBreaker. For example, merely three bit-flips (4.129 x 10^-9% of total parameters) in the LLaMA3-8B-Instruct 8-bit quantized (W8) model result in a complete performance collapse: accuracy on MMLU tasks drops from 67.3% to 0%, and Wikitext perplexity skyrockets from 12.6 to 4.72 x 10^5. These findings underscore the effectiveness of AttentionBreaker in uncovering and exploiting critical vulnerabilities within LLM architectures.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらし、テキスト生成や要約といったタスクに優れています。しかしながら、ミッションクリティカルなアプリケーションへの採用の増加により、ハードウェアベースの脅威、特にビットフリップ攻撃(BFA)に対する懸念が高まっている。 Rowhammerのようなフォールトインジェクションメソッドによって実現されたBFAは、メモリ内のモデルパラメータをターゲットにし、整合性とパフォーマンスを両立させる。 LLMの広大なパラメータ空間におけるBFAの臨界パラメータの同定は重要な課題である。以前の研究では、トランスフォーマーベースのアーキテクチャは、従来のディープニューラルネットワークと比較して本質的にBFAに対して堅牢であることを示しているが、この仮定に挑戦する。初めて、数十億のパラメータを持つLLMにおいて、3ビットフリップが破滅的な性能劣化を引き起こすことを実証した。現在のBFA技術は、膨大なパラメータ空間内で重要なパラメータを効率的に識別することが困難であるため、この脆弱性を悪用するには不十分である。そこで本研究では,パラメータ空間を効率的にトラバースして重要なパラメータを識別するLLMに適したフレームワークであるAttentionBreakerを提案する。さらに、探索をさらに洗練するために設計された進化的最適化戦略であるGenBFAを導入し、効率的かつ効果的な攻撃のために最も重要なビットを分離する。実証的な結果から、LLMのAttentionBreakerに対する深刻な脆弱性が明らかになった。例えば、LLaMA3-8B-Instruct 8ビット量子化(W8)モデルにおける3ビットフリップ(全パラメータの4.129 x 10^-9%)は、完全なパフォーマンスの崩壊をもたらす:MMLUタスクの精度は67.3%から0%に低下し、Wikitextのパープレキシティは12.6から4.72 x 10^5に急上昇する。これらの知見は、LLMアーキテクチャ内の重大な脆弱性を発見し、悪用する上で、AttentionBreakerの有効性を裏付けるものである。

関連論文リスト

Phishing Detection in the Gen-AI Era: Quantized LLMs vs Classical Models [1.4999444543328293]
フィッシング攻撃はますます洗練され、高精度と計算効率のバランスをとる検知システムの必要性が強調されている。本稿では、フィッシング検出のための従来の機械学習(ML)、ディープラーニング(DL)、および量子化された小パラメータ大規模言語モデル(LLM)の比較評価を行う。現在,LLMはML法やDL法に比べて精度が低いが,文脈に基づく微妙なフィッシング手法を識別する可能性が強い。
論文参考訳（メタデータ） (2025-07-10T04:01:52Z)
LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。 LoXは攻撃成功率を11%から54%に下げる。
論文参考訳（メタデータ） (2025-06-18T16:30:02Z)
BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models [19.856128742435814]
本稿では,新たなタイプの推論コスト攻撃("bit-flip inference cost attack"と呼ばれる)を導入する。具体的には,モデルパラメータの臨界ビットを効果的にフリップする,シンプルで効果的な手法(BitHydraと呼ばれる)を設計する。たった4つの検索サンプルと3ビットのフリップで、BitHydraは100%のテストプロンプトを最大生成時間まで強制することができる。
論文参考訳（メタデータ） (2025-05-22T13:36:00Z)
DeLTa: A Decoding Strategy based on Logit Trajectory Prediction Improves Factuality and Reasoning Ability [3.2561294196141835]
本稿では,事実的精度と推論的推論を両立させる新しい復号法を提案する。提案手法は,トランスフォーマーの下位層から上位層へのロジットの軌跡を解析することにより,次の確率を調節する。 TruthfulQAの実験では、DeLTaはベースラインよりも4.9%改善されている。
論文参考訳（メタデータ） (2025-03-04T07:07:17Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation [2.3080718283523827]
大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。わずかな入力摂動が有害または誤解を招く可能性のある敵攻撃。勾配に基づく防御接尾辞生成アルゴリズムはLLMの堅牢性を高めるために設計されている。
論文参考訳（メタデータ） (2024-12-18T10:49:41Z)
MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。 HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文参考訳（メタデータ） (2024-12-10T22:44:54Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
Semantic-guided Search for Efficient Program Repair with Large Language Models [0.9319432628663639]
FLAMESは、修復効率とメモリ効率を向上させるためにセマンティック誘導パッチ生成を使用する。 FLAMESは従来のLCMベースのAPRに比べてメモリ消費を最大83%削減する。 FLAMESはDefects4JとHumanEval-Javaデータセットで333と163のバグに対して133と103の修正を成功させた。
論文参考訳（メタデータ） (2024-10-22T02:59:47Z)
Is Parameter Collision Hindering Continual Learning in LLMs? [50.57658782050275]
大規模言語モデル(LLM)は、複数のタスクを逐次学習する際に破滅的な忘れに悩まされることが多い。 CL問題に対処する上で,非衝突パラメータの構築はより重要な相互依存因子であることを示す。低衝突速度を利用してLCMのCLを向上する単純なアプローチである非衝突低ランク適応(N-LoRA)を提案する。
論文参考訳（メタデータ） (2024-10-14T05:54:11Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs [16.296171008281775]
大規模言語モデル(LLM)は、人間のようなテキストを生成する強力な能力のため、様々なアプリケーションで広く利用されている。プロンプトインジェクション攻撃は、モデルの最初の命令を悪意のあるプロンプトで上書きし、生成されたテキストを操作する。本稿では,ファジィ技術を利用した新規な試験フレームワークであるProMPTFUZZを提案する。
論文参考訳（メタデータ） (2024-09-23T06:08:32Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。 5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。 5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文参考訳（メタデータ） (2024-06-10T02:47:55Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
Evaluation of Parameter-based Attacks against Embedded Neural Networks with Laser Injection [1.2499537119440245]
この研究は、レーザ断層注入を用いた32ビットのCortex-Mマイクロコントローラ上で、ビットフリップ攻撃(BFA)の成功例を実際に報告した。非現実的なブルートフォース戦略を避けるために、レーザ断層モデルを考慮したパラメータから最も敏感なビット群を選択するのにシミュレーションがどのように役立つかを示す。
論文参考訳（メタデータ） (2023-04-25T14:48:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。