論文の概要: Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.24542v1
- Date: Mon, 27 Apr 2026 14:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.087516
- Title: Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models
- Title(参考訳): 大規模言語モデルにおける実行時ミス行動検出のための階層的収束フィンガープリント
- Authors: Nay Myat Min, Long H. Pham, Jun Sun,
- Abstract要約: 本稿では,階層間隠れ状態軌跡を健康信号として扱う無チューニングランタイムモニタであるLayerwise Convergence Fingerprinting (LCF)を紹介する。
4つのアーキテクチャ(Llama-3-8B、Qwen2.5-7B、Gemma-2-9B、Qwen2.5-14B)をバックドア、ジェイルブレイク、即時注入で評価した。
- 参考スコア(独自算出の注目度): 5.937023024175801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models deployed at runtime can misbehave in ways that clean-data validation cannot anticipate: training-time backdoors lie dormant until triggered, jailbreaks subvert safety alignment, and prompt injections override the deployer's instructions. Existing runtime defenses address these threats one at a time and often assume a clean reference model, trigger knowledge, or editable weights, assumptions that rarely hold for opaque third-party artifacts. We introduce Layerwise Convergence Fingerprinting (LCF), a tuning-free runtime monitor that treats the inter-layer hidden-state trajectory as a health signal: LCF computes a diagonal Mahalanobis distance on every inter-layer difference, aggregates via Ledoit-Wolf shrinkage, and thresholds via leave-one-out calibration on 200 clean examples, with no reference model, trigger knowledge, or retraining. Evaluated on four architectures (Llama-3-8B, Qwen2.5-7B, Gemma-2-9B, Qwen2.5-14B) across backdoors, jailbreaks, and prompt injection (56 backdoor combinations, 3 jailbreak techniques, and BIPIA email + code-QA), LCF reduces mean backdoor attack success rate (ASR) below 1% on Qwen2.5-7B and Gemma-2 and to 1.3% on Qwen2.5-14B, detects 92-100% of DAN jailbreaks (62-100% for GCG and softer role-play), and flags 100% of text-payload injections across all eight (model, domain) cells, at 12-16% backdoor FPR and <0.1% inference overhead. A single aggregation score covers all three threat families without threat-specific tuning, positioning LCF as a general-purpose runtime safety layer for cloud-served and on-device LLMs.
- Abstract(参考訳): トレーニング時のバックドアは起動するまで休眠状態にあり、jailbreakは安全アライメントを反転し、インジェクションはデプロイ者の指示をオーバーライドする。
既存のランタイムディフェンスは、これらの脅威に一度に対処し、クリーンな参照モデル、知識のトリガー、編集可能な重み付けを仮定する。
LCFは、各層間差の対角線マハラノビス距離を計算し、レドイト・ウルフ収縮による集約と、200個のクリーンな例で、参照モデル、トリガー知識、リトレーニングなしで、アウト・ワン・キャリブレーションによるしきい値を算出する。
4つのアーキテクチャ(Llama-3-8B、Qwen2.5-7B、Gemma-2-9B、Qwen2.5-14B)をバックドア、ジェイルブレイク、即時インジェクション(56のバックドアの組み合わせ、3つのジェイルブレイクテクニック、BIPIA Eメール+コードQA)で評価し、LCFはQwen2.5-7BおよびGemma-2の平均バックドア攻撃成功率(ASR)を1%以下に下げ、Qwen2.5-14Bで1.3%まで下げ、DANジェイルブレイクの92-100%(GCGとソフトなロールプレイで62-100%)を検出し、全8つの(モデル、ドメイン)セルでテキストペイドインジェクションの100%、12-16%のバックドアFPRと0.1%で旗を立てた。
単一のアグリゲーションスコアは、脅威固有のチューニングなしで3つの脅威ファミリすべてをカバーする。
関連論文リスト
- SafeDream: Safety World Model for Proactive Early Jailbreak Detection [23.14126936942301]
マルチターンジェイルブレイク攻撃は、一見無害な会話のターンにLSMの安全性を徐々に損なう。
LLMの重みを変更することなく外部モジュールとして動作する軽量なワールドモデルベースフレームワークであるSAFEDREAMを提案する。
3つのマルチターンジェイルブレイクベンチマークでは、SAFEDREAMは全てのベンチマーク(1.06-1.20はコンプライアンス前)で最高の検出を達成し、競合する偽陽性率を維持し、検出品質のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-18T04:31:33Z) - Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice [0.0]
実行サンドボックス(L1)、意図検証(L2)、ゼロトラスト間認証(L3)、不変監査ロギング(L4)からなる4層フレームワークであるレイヤガバナンスアーキテクチャ(LGA)を提案する。
LGAを評価するために、1,081のツールコールサンプル(インジェクション、RAG中毒、悪意のあるスキルプラグインなど)のベンチマーク(中国語のオリジナル、機械翻訳による英語)を構築し、それをオープンソースの代表的なエージェントフレームワークであるOpenClawに適用する。
論文 参考訳(メタデータ) (2026-03-07T13:05:14Z) - Recursive language models for jailbreak detection: a procedural defense for tool-augmented agents [0.0]
Recursive Language Models (RLM) に基づくエンドツーエンドのジェイルブレイク検出フレームワーク RLM-JB を提案する。
RLM-JBは、検出をワンショット分類ではなく手順として扱う。
AutoDANスタイルの逆入力では、RLM-JBは3つのLLMバックエンド間で高い検出効率を実現する。
論文 参考訳(メタデータ) (2026-02-18T15:07:09Z) - Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks [0.0]
本稿では、信頼性のあるローカルGPUとクラウドGPUのトランスフォーマーを分割する、プライバシーに配慮した大規模言語モデル(LLM)の実用的なシステムを提案する。
我々のシステムは、高速広帯域ネットワーク(WAN)上での自己回帰LDM復号化の独特な課題に対処する。
システムは4.9GBのローカルVRAMと7Bのスループットしか持たない大型モデルに一般化される。
論文 参考訳(メタデータ) (2026-02-18T14:13:08Z) - Lethe: Purifying Backdoored Large Language Models with Knowledge Dilution [49.78359632298156]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを達成し、大幅な進歩を遂げている。
標準クエリではモデルが正常に動作しますが、特定のトリガがアクティブになると、有害な応答や意図しない出力を生成します。
本稿では,LLMからのバックドアの挙動を知識希釈により除去する新しい手法LETHEを提案する。
論文 参考訳(メタデータ) (2025-08-28T17:05:18Z) - DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors [52.85182605005619]
トレーニング中にベンチマークテストセットを使用したモデルを識別するためにバックドアアタックを利用するフレームワークであるDiePackを紹介します。
銀行が染料パックにお金を混ぜて強盗をマークするのと同じように、DiePackはバックドアのサンプルとテストデータとを混ぜて、その上で訓練されたモデルのフラグを立てる。
我々はDiePackを3つのデータセットにわたる5つのモデルで評価し、複数の選択とオープンな生成タスクの両方をカバーした。
論文 参考訳(メタデータ) (2025-05-29T02:22:14Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。