論文の概要: Has the Two-Decade-Old Prophecy Come True? Artificial Bad Intelligence Triggered by Merely a Single-Bit Flip in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.00490v1
- Date: Wed, 01 Oct 2025 04:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.369602
- Title: Has the Two-Decade-Old Prophecy Come True? Artificial Bad Intelligence Triggered by Merely a Single-Bit Flip in Large Language Models
- Title(参考訳): 2年前の予言は真実か? 巨大な言語モデルで1ビットのフリップをトリガーした人工知能
- Authors: Yu Yan, Siqi Lu, Yang Gao, Zhaoxuan Li, Ziming Zhao, Qingjun Yuan, Yongjuan Wang,
- Abstract要約: Bit-Flip Attack (BFA)は、ハードウェアフォールトインジェクションを通じてリモートでソフトウェアシステムの完全性を損なう能力に対して、広く注目を集めている。
本稿では,大規模言語モデル(LLM)における単一ビット脆弱性の存在を,.gguf量子化形式を用いて体系的に発見し,検証した最初の例である。
攻撃周波数は毎秒464.3回で、1ビットは31.7秒で100%成功してフリップできる。
- 参考スコア(独自算出の注目度): 16.552905034341343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Bit-Flip Attack (BFA) has garnered widespread attention for its ability to compromise software system integrity remotely through hardware fault injection. With the widespread distillation and deployment of large language models (LLMs) into single file .gguf formats, their weight spaces have become exposed to an unprecedented hardware attack surface. This paper is the first to systematically discover and validate the existence of single-bit vulnerabilities in LLM weight files: in mainstream open-source models (e.g., DeepSeek and QWEN) using .gguf quantized formats, flipping just single bit can induce three types of targeted semantic level failures Artificial Flawed Intelligence (outputting factual errors), Artificial Weak Intelligence (degradation of logical reasoning capability), and Artificial Bad Intelligence (generating harmful content). By building an information theoretic weight sensitivity entropy model and a probabilistic heuristic scanning framework called BitSifter, we achieved efficient localization of critical vulnerable bits in models with hundreds of millions of parameters. Experiments show that vulnerabilities are significantly concentrated in the tensor data region, particularly in areas related to the attention mechanism and output layers, which are the most sensitive. A negative correlation was observed between model size and robustness, with smaller models being more susceptible to attacks. Furthermore, a remote BFA chain was designed, enabling semantic-level attacks in real-world environments: At an attack frequency of 464.3 times per second, a single bit can be flipped with 100% success in as little as 31.7 seconds. This causes the accuracy of LLM to plummet from 73.5% to 0%, without requiring high-cost equipment or complex prompt engineering.
- Abstract(参考訳): 最近、Bit-Flip Attack (BFA) は、ハードウェアフォールトインジェクションを通じてリモートでソフトウェアシステムの完全性を妥協する能力について、広く注目を集めている。
大規模な言語モデル(LLM)を単一のファイルに広く蒸留し、デプロイする。
ggufフォーマット、その重み空間は、前例のないハードウェア攻撃面に露出している。
この論文は、LLM重みファイルにおける単一ビット脆弱性の存在を系統的に発見し、検証する最初の試みである。
人工知能(事実エラーをアウトプットする)、人工知能(論理的推論能力の劣化)、人工知能(有害なコンテンツの生成)。
情報理論量感度エントロピーモデルと、BitSifterと呼ばれる確率論的ヒューリスティックスキャニングフレームワークを構築することにより、数億のパラメータを持つモデルにおける臨界弱ビットの効率的な局在化を実現した。
実験により、脆弱性はテンソルデータ領域、特に最も敏感な注意機構と出力層に関連する領域に著しく集中していることが示されている。
モデルサイズとロバスト性の間には負の相関が見られ、より小さなモデルの方が攻撃を受けやすい。
さらに、リモートのBFAチェーンが設計され、現実世界の環境におけるセマンティックレベルの攻撃を可能にした: 攻撃周波数が464.3回/秒の場合、1ビットは31.7秒で100%成功してフリップできる。
これにより、LLMの精度は73.5%から0%に低下し、高価な機器や複雑なプロンプトエンジニアリングを必要としない。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Large Language Model-Based Framework for Explainable Cyberattack Detection in Automatic Generation Control Systems [5.99333254967625]
本稿では,機械学習(ML)と自然言語説明(LLM)を統合し,サイバー攻撃を検出するハイブリッドフレームワークを提案する。
提案するフレームワークは,解釈可能な高忠実な説明によるリアルタイム検出を効果的に実現し,スマートグリッドサイバーセキュリティにおける実行可能なAIの重要要件に対処する。
論文 参考訳(メタデータ) (2025-07-29T21:23:08Z) - Camouflage is all you need: Evaluating and Enhancing Language Model
Robustness Against Camouflage Adversarial Attacks [53.87300498478744]
自然言語処理(NLP)における敵攻撃の意義
本研究は、脆弱性評価とレジリエンス向上という2つの異なる段階において、この課題を体系的に探求する。
結果として、パフォーマンスとロバスト性の間のトレードオフが示唆され、いくつかのモデルは、ロバスト性を確保しながら、同様のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-02-15T10:58:22Z) - Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。
ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。
本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文 参考訳(メタデータ) (2023-12-10T16:14:02Z) - Disarming Steganography Attacks Inside Neural Network Models [4.750077838548593]
本稿では,AIモデル攻撃の解除と再構築に基づくゼロトラスト防止戦略を提案する。
本研究では,Qint8法とK-LRBP法に基づくモデル精度の低下を最小限に抑えながら,100%の防止率を示す。
論文 参考訳(メタデータ) (2023-09-06T15:18:35Z) - Fault Injection and Safe-Error Attack for Extraction of Embedded Neural Network Models [1.2499537119440245]
モノのインターネット(IoT)における32ビットマイクロコントローラの組み込みディープニューラルネットワークモデルに焦点をあてる。
攻撃を成功させるためのブラックボックス手法を提案する。
古典的畳み込みニューラルネットワークでは、1500個の入力で最も重要なビットの少なくとも90%を回復することに成功した。
論文 参考訳(メタデータ) (2023-08-31T13:09:33Z) - One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。
本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文 参考訳(メタデータ) (2023-08-12T09:34:43Z) - Robust Encodings: A Framework for Combating Adversarial Typos [85.70270979772388]
NLPシステムは入力の小さな摂動によって容易に騙される。
このような混乱に対して防御するための既存の手順は、最悪の場合の攻撃に対して確実な堅牢性を提供する。
モデルアーキテクチャに妥協を加えることなく、ロバスト性を保証するロブエン(RobEn)を導入します。
論文 参考訳(メタデータ) (2020-05-04T01:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。