論文の概要: BitFlipScope: Scalable Fault Localization and Recovery for Bit-Flip Corruptions in LLMs
- arxiv url: http://arxiv.org/abs/2512.22174v1
- Date: Thu, 18 Dec 2025 20:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.093843
- Title: BitFlipScope: Scalable Fault Localization and Recovery for Bit-Flip Corruptions in LLMs
- Title(参考訳): BitFlipScope:LLMにおけるビットフリップ破壊に対するスケーラブルなフォールトローカライゼーションとリカバリ
- Authors: Muhammad Zeeshan Karamat, Sadman Saif, Christiana Chamon Garcia,
- Abstract要約: BitFlipScopeはスケーラブルでソフトウェアベースのフレームワークで、トランスフォーマーアーキテクチャ内の障害の影響のある領域を特定する。
微調整なしで軽量なパフォーマンス回復をサポートし、破損したモデルを復元するための実用的なパスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) deployed in practical and safety-critical settings are increasingly susceptible to bit-flip faults caused by hardware degradation, cosmic radiation, or deliberate fault-injection attacks such as Rowhammer. These faults silently corrupt internal parameters and can lead to unpredictable or dangerous model behavior. Localizing these corruptions is essential: without identifying the affected region, it is impossible to diagnose the source of degradation, apply targeted corrective measures, or restore model functionality without resorting to costly fine-tuning or full retraining. This work introduces BitFlipScope, a scalable, software-based framework for identifying fault-affected regions within transformer architectures under two deployment scenarios. When a clean reference model is available, BitFlipScope performs differential analysis of outputs, hidden states, and internal activations for detecting anomalous behavior indicative of corruption to pinpoint or localize faults. When no reference model exists, it uses residual-path perturbation and loss-sensitivity profiling to infer the fault-impacted region directly from the corrupted model. In both settings, the framework not only enables effective fault diagnosis but also supports lightweight performance recovery without fine-tuning, offering a practical path to restoring corrupted models. Together, these capabilities make BitFlipScope an important step toward trustworthy, fault-resilient LLM deployment in hardware-prone and adversarial environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ハードウェア劣化、宇宙放射線、ローハンマーのような故意の欠陥注入攻撃によって引き起こされるビットフリップフォールトの影響を受けやすくなっている。
これらの欠陥は静かに内部パラメータを破損させ、予測不能または危険なモデル行動を引き起こす可能性がある。
被害地域を特定することなく、劣化源の診断、対象の修正措置の適用、あるいはモデル機能の回復は、コストのかかる微調整やフルリトレーニングに頼らずに不可能である。
この作業では,2つのデプロイメントシナリオの下で,トランスフォーマーアーキテクチャ内の障害影響領域を特定するための,スケーラブルでソフトウェアベースのフレームワークであるBitFlipScopeを紹介した。
クリーンな参照モデルが利用可能になると、BitFlipScopeは出力、隠れ状態、異常な動作を検出する内部アクティベーションの差分解析を行い、障害をピンポイントまたはローカライズする。
参照モデルが存在しない場合には、残留経路の摂動と損失感度のプロファイリングを用いて、破損したモデルから直接、断層に衝突した領域を推定する。
どちらの設定でも、このフレームワークは効果的な障害診断を可能にするだけでなく、微調整なしで軽量なパフォーマンス回復をサポートする。
これらの機能によって、BitFlipScopeは、ハードウェアの危険度と敵環境における信頼性の高いフォールトトレリエントなLLMデプロイメントに向けた重要なステップとなる。
関連論文リスト
- Robustness Evaluation of Machine Learning Models for Fault Classification and Localization In Power System Protection [5.539105299550525]
この研究は、電力系統保護における機械学習モデルの堅牢性を評価するための統一的なフレームワークを導入している。
高忠実性EMTシミュレーションは、センサの故障、サンプリングレートの低減、過渡的な通信損失などの現実的な劣化シナリオをモデル化するために用いられる。
その結果, FCはほとんどの劣化型では安定だが, 単相損失では約13%低下し, FLは全般的に感度が高く, 電圧損失は局所化誤差が150%以上増加した。
論文 参考訳(メタデータ) (2025-12-17T12:38:53Z) - FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction [82.6826848085638]
視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
これらの攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T11:36:56Z) - Beyond Sharp Minima: Robust LLM Unlearning via Feedback-Guided Multi-Point Optimization [37.965539404740774]
より安定したパラメータ領域を明示的に求める双方向フィードバック誘導最適化フレームワークを提案する。
WMDP と MUSE のベンチマーク実験により,本手法は再学習および脱獄攻撃に対して極めて堅牢であることが示された。
論文 参考訳(メタデータ) (2025-09-24T15:23:46Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Corrupted but Not Broken: Understanding and Mitigating the Negative Impacts of Corrupted Data in Visual Instruction Tuning [92.16191092329765]
マルチモーダル大言語モデル(MLLM)における劣化データの影響について検討する。
劣化したデータはモデル性能を劣化させるが、そのような悪影響は大部分が可逆的である。
破損したデータの影響を緩和する既存の戦略をはるかに上回る汚職・汚職訓練パラダイムを導入する。
論文 参考訳(メタデータ) (2025-02-18T08:28:29Z) - Calibrating Deep Neural Network using Euclidean Distance [5.3612053942581275]
機械学習では、Focal Lossは、サンプルの分類が難しいことを強調することで、誤分類率を減らすために一般的に使用される。
高校正誤差は予測確率と実際の結果との相違を示し、モデルの信頼性に影響を及ぼす。
本研究では,FCL (Focal Loss) と呼ばれる新しい損失関数を導入する。
論文 参考訳(メタデータ) (2024-10-23T23:06:50Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。