論文の概要: TFL: Targeted Bit-Flip Attack on Large Language Model
- arxiv url: http://arxiv.org/abs/2602.17837v1
- Date: Thu, 19 Feb 2026 20:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.146904
- Title: TFL: Targeted Bit-Flip Attack on Large Language Model
- Title(参考訳): TFL:大規模言語モデルにおけるビットフリップ攻撃
- Authors: Jingkai Guo, Chaitali Chakrabarti, Deliang Fan,
- Abstract要約: 大規模言語モデル(LLM)は、安全およびセキュリティクリティカルなアプリケーションにますます多くデプロイされている。
本稿では,新規なビットフリップ攻撃フレームワークであるTFLを紹介する。
TFLフレームワーク内では,生成出力における攻撃者特定ターゲットトークンの促進を目的とした,キーワードに着目した新たな攻撃損失を提案する。
- 参考スコア(独自算出の注目度): 16.379863498328955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in safety and security critical applications, raising concerns about their robustness to model parameter fault injection attacks. Recent studies have shown that bit-flip attacks (BFAs), which exploit computer main memory (i.e., DRAM) vulnerabilities to flip a small number of bits in model weights, can severely disrupt LLM behavior. However, existing BFA on LLM largely induce un-targeted failure or general performance degradation, offering limited control over manipulating specific or targeted outputs. In this paper, we present TFL, a novel targeted bit-flip attack framework that enables precise manipulation of LLM outputs for selected prompts while maintaining almost no or minor degradation on unrelated inputs. Within our TFL framework, we propose a novel keyword-focused attack loss to promote attacker-specified target tokens in generative outputs, together with an auxiliary utility score that balances attack effectiveness against collateral performance impact on benign data. We evaluate TFL on multiple LLMs (Qwen, DeepSeek, Llama) and benchmarks (DROP, GSM8K, and TriviaQA). The experiments show that TFL achieves successful targeted LLM output manipulations with less than 50 bit flips and significantly reduced effect on unrelated queries compared to prior BFA approaches. This demonstrates the effectiveness of TFL and positions it as a new class of stealthy and targeted LLM model attack.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全およびセキュリティクリティカルなアプリケーションにますますデプロイされ、パラメータの障害注入攻撃のモデルに対する堅牢性に対する懸念が高まっている。
近年の研究では、コンピュータのメインメモリ(つまりDRAM)の脆弱性を利用したビットフリップ攻撃(BFA)が、少量のビットをモデル重みに切り替えることによって、LLMの動作を著しく破壊する可能性があることが示されている。
しかし、LLM上の既存のBFAは、主に未目標の故障または一般的な性能劣化を誘発し、特定の出力または対象の出力を操作するための制限された制御を提供する。
本稿では,選択したプロンプトに対するLLM出力の精密な操作を可能とし,無関係な入力のほとんどあるいはマイナーな劣化を抑えつつ,新規なビットフリップ攻撃フレームワークであるTFLを提案する。
TFLフレームワーク内では、生成出力における攻撃者特定ターゲットトークンの促進を目的としたキーワード中心の攻撃損失と、良質なデータに対する副次的パフォーマンス影響に対する攻撃効果のバランスをとる補助的ユーティリティスコアを提案する。
複数のLLM(Qwen, DeepSeek, Llama)とベンチマーク(DROP, GSM8K, TriviaQA)でTFLを評価する。
実験の結果、TFLは50ビット以下で目標LLM出力操作を成功させ、従来のBFA手法と比較して、無関係なクエリへの影響を著しく低減することがわかった。
これはTFLの有効性を示し、新たなステルスシーとLLMモデルアタックのクラスとして位置づける。
関連論文リスト
- Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - SBFA: Single Sneaky Bit Flip Attack to Break Large Language Models [16.379863498328955]
Bit-Flip攻撃はディープニューラルネットワーク(DNN)を著しく損なう
SBFA(Sneaky Bit-Flip Attack)を提案する。
パラメータ感度の基準であるImpactScoreを用いて、反復的な検索とランキングによって達成される。
論文 参考訳(メタデータ) (2025-09-26T04:03:53Z) - SilentStriker:Toward Stealthy Bit-Flip Attacks on Large Language Models [13.200372347541142]
Bit-Flip Attacks (BFA) は、ハードウェア脆弱性を利用してモデルパラメータを破損させ、重大なパフォーマンス劣化を引き起こす。
既存のBFA手法では、性能劣化と出力の自然さのバランスが取れず、発見しがちである。
SilentStrikerは、出力の自然性を維持しながらタスク性能を効果的に低下させるLSMに対する最初のステルスなビットフリップ攻撃である。
論文 参考訳(メタデータ) (2025-09-22T05:36:18Z) - MEF: A Capability-Aware Multi-Encryption Framework for Evaluating Vulnerabilities in Black-Box Large Language Models [5.645247459469767]
ブラックボックスLLMの脆弱性を評価するための機能対応マルチ暗号化フレームワーク(MEF)を提案する。
限定的な理解能力を持つモデルに対して、MEFは、階層化された意味突然変異と暗号化技術を統合するFu+En1戦略を採用している。
強力な理解能力を持つモデルでは、MEFはより複雑なFu+En1+En2戦略を使用し、LLMの応答に追加のデュアルエンド暗号化技術を適用する。
論文 参考訳(メタデータ) (2025-05-29T12:50:57Z) - Exploring the limits of strong membership inference attacks on large language models [70.49900359876595]
最先端メンバーシップ推論攻撃 (MIA) は通常、多くの参照モデルを訓練する必要がある。
事前訓練された言語モデルでは強力なMIAが成功するが,その有効性は限られている。
論文 参考訳(メタデータ) (2025-05-24T16:23:43Z) - Understanding and Enhancing the Transferability of Jailbreaking Attacks [12.446931518819875]
脱獄攻撃は、オープンソースの大規模言語モデル(LLM)を効果的に操作し、有害な応答を生成する。
本研究は, モデルが意図的知覚に与える影響を分析し, 脱獄攻撃の伝達可能性について検討する。
そこで本研究では,入力中の中性インテリジェントトークンを均一に分散するPerceived-Iportance Flatten (PiF)法を提案する。
論文 参考訳(メタデータ) (2025-02-05T10:29:54Z) - From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [91.79567270986901]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。
近年の研究では、教師付き微調整(SFT)を用いて、梅毒問題を軽減することが提案されている。
そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:01:37Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。