論文の概要: BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16670v1
- Date: Thu, 22 May 2025 13:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.329731
- Title: BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models
- Title(参考訳): BitHydra: 大規模言語モデルに対するビットフリップ推論コスト攻撃を目指す
- Authors: Xiaobei Yan, Yiming Li, Zhaoxin Fan, Han Qiu, Tianwei Zhang,
- Abstract要約: 本稿では,新たなタイプの推論コスト攻撃("bit-flip inference cost attack"と呼ばれる)を導入する。
具体的には,モデルパラメータの臨界ビットを効果的にフリップする,シンプルで効果的な手法(BitHydraと呼ばれる)を設計する。
たった4つの検索サンプルと3ビットのフリップで、BitHydraは100%のテストプロンプトを最大生成時間まで強制することができる。
- 参考スコア(独自算出の注目度): 19.856128742435814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive capabilities across a wide range of applications, but their ever-increasing size and resource demands make them vulnerable to inference cost attacks, where attackers induce victim LLMs to generate the longest possible output content. In this paper, we revisit existing inference cost attacks and reveal that these methods can hardly produce large-scale malicious effects since they are self-targeting, where attackers are also the users and therefore have to execute attacks solely through the inputs, whose generated content will be charged by LLMs and can only directly influence themselves. Motivated by these findings, this paper introduces a new type of inference cost attacks (dubbed 'bit-flip inference cost attack') that target the victim model itself rather than its inputs. Specifically, we design a simple yet effective method (dubbed 'BitHydra') to effectively flip critical bits of model parameters. This process is guided by a loss function designed to suppress <EOS> token's probability with an efficient critical bit search algorithm, thus explicitly defining the attack objective and enabling effective optimization. We evaluate our method on 11 LLMs ranging from 1.5B to 14B parameters under both int8 and float16 settings. Experimental results demonstrate that with just 4 search samples and as few as 3 bit flips, BitHydra can force 100% of test prompts to reach the maximum generation length (e.g., 2048 tokens) on representative LLMs such as LLaMA3, highlighting its efficiency, scalability, and strong transferability across unseen inputs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲のアプリケーションで印象的な機能を示しているが、そのサイズとリソース要求の増大により、推論コストの攻撃に弱い。
本稿では,既存の推論コスト攻撃を再考し,攻撃者がユーザであり,かつ,生成したコンテンツがLSMによって課金され,直接的に影響を受けない入力によってのみ攻撃を行なわなければならない自己ターゲティングであるため,これらの手法が大規模に悪影響を生じにくいことを明らかにする。
これらの知見に触発されて,本研究では,新たなタイプの推論コスト攻撃("bit-flip inference cost attack"と呼ばれる)を導入し,入力ではなく,被害者モデル自体を標的とした。
具体的には,モデルパラメータの臨界ビットを効果的にフリップする,シンプルで効果的な手法(BitHydraと呼ばれる)を設計する。
このプロセスは,<EOS>トークンの確率を効率的な臨界ビット探索アルゴリズムで抑制し,攻撃目標を明確に定義し,効果的な最適化を実現するために設計された損失関数によって導かれる。
1.5B から 14B のパラメータを int8 とfloat16 の条件下で評価した。
実験の結果、わずか4つの検索サンプルと3ビットフリップで、BitHydraはテストプロンプトの100%をLLaMA3のような代表LLM上の最大生成長(例:2048トークン)に到達させ、その効率、スケーラビリティ、そして見えない入力間の強い転送性を強調している。
関連論文リスト
- No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs [3.967858172081495]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
ミッションクリティカルなアプリケーションの採用が増えると、ハードウェアベースの脅威、特にビットフリップ攻撃(BFA)に対する懸念が高まる。
論文 参考訳(メタデータ) (2024-11-21T00:01:51Z) - Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。
本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:39:31Z) - Goal-guided Generative Prompt Injection Attack on Large Language Models [6.175969971471705]
大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。
多数のユーザは、ユーザインターフェースを通じて、逆テキストや命令を容易に注入することができる。
これらの戦略が攻撃の成功率とどのように関係し、モデルセキュリティを効果的に改善するかは不明である。
論文 参考訳(メタデータ) (2024-04-06T06:17:10Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Targeted Attack against Deep Neural Networks via Flipping Limited Weight
Bits [55.740716446995805]
我々は,悪質な目的で展開段階におけるモデルパラメータを修飾する新しい攻撃パラダイムについて検討する。
私たちのゴールは、特定のサンプルをサンプル修正なしでターゲットクラスに誤分類することです。
整数プログラミングにおける最新の手法を利用することで、このBIP問題を連続最適化問題として等価に再構成する。
論文 参考訳(メタデータ) (2021-02-21T03:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。