論文の概要: DualSentinel: A Lightweight Framework for Detecting Targeted Attacks in Black-box LLM via Dual Entropy Lull Pattern
- arxiv url: http://arxiv.org/abs/2603.01574v1
- Date: Mon, 02 Mar 2026 08:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.749158
- Title: DualSentinel: A Lightweight Framework for Detecting Targeted Attacks in Black-box LLM via Dual Entropy Lull Pattern
- Title(参考訳): DualSentinel:デュアルエントロピールルパターンによるブラックボックスLDMの標的攻撃検出用軽量フレームワーク
- Authors: Xiaoyi Pang, Xuanyi Hao, Pengyu Liu, Qi Luo, Song Guo, Zhibo Wang,
- Abstract要約: 軽量で統一された防衛フレームワークであるDualSentinelを紹介する。
大規模言語モデル生成プロセスと共にターゲット攻撃のアクティベートを正確かつ迅速に検出することができる。
それは非常に効果的(ほぼゼロの偽陽性による事前検出精度)で、非常に効率的(無視できる追加コスト)である。
- 参考スコア(独自算出の注目度): 23.834578989358423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent intelligent systems integrate powerful Large Language Models (LLMs) through APIs, but their trustworthiness may be critically undermined by targeted attacks like backdoor and prompt injection attacks, which secretly force LLMs to generate specific malicious sequences. Existing defensive approaches for such threats typically rely on high access rights, impose prohibitive costs, and hinder normal inference, rendering them impractical for real-world scenarios. To solve these limitations, we introduce DualSentinel, a lightweight and unified defense framework that can accurately and promptly detect the activation of targeted attacks alongside the LLM generation process. We first identify a characteristic of compromised LLMs, termed Entropy Lull: when a targeted attack successfully hijacks the generation process, the LLM exhibits a distinct period of abnormally low and stable token probability entropy, indicating it is following a fixed path rather than making creative choices. DualSentinel leverages this pattern by developing an innovative dual-check approach. It first employs a magnitude and trend-aware monitoring method to proactively and sensitively flag an entropy lull pattern at runtime. Upon such flagging, it triggers a lightweight yet powerful secondary verification based on task-flipping. An attack is confirmed only if the entropy lull pattern persists across both the original and the flipped task, proving that the LLM's output is coercively controlled. Extensive evaluations show that DualSentinel is both highly effective (superior detection accuracy with near-zero false positives) and remarkably efficient (negligible additional cost), offering a truly practical path toward securing deployed LLMs. The source code can be accessed at https://doi.org/10.5281/zenodo.18479273.
- Abstract(参考訳): 最近のインテリジェントなシステムはAPIを通じて強力なLarge Language Model(LLM)を統合するが、その信頼性はバックドアやインジェクション攻撃といったターゲット攻撃によって著しく損なわれる可能性がある。
このような脅威に対する既存の防御的アプローチは、通常、高いアクセス権に依存し、禁止費用を課し、通常の推論を妨げる。
これらの制限を解決するために、LLM生成プロセスとともに標的攻撃の活性化を的確かつ迅速に検出できる軽量で統一された防御フレームワークであるDualSentinelを導入する。
我々はまず、エントロピー・ルル(Entropy Lull)と呼ばれる妥協されたLSMの特徴を特定し、ターゲット攻撃が生成過程をハイジャックすることに成功したとき、LSMは異常に低い安定なトークン確率エントロピーの異なる周期を示し、創造的な選択よりも固定された経路を辿っていることを示す。
DualSentinelはこのパターンを利用して、革新的なデュアルチェックアプローチを開発した。
最初は、エントロピーのルールパターンを積極的にかつ敏感にフラグする、マグニチュードでトレンド対応のモニタリング手法を採用している。
このようなフラグを付けると、タスクフリッピングに基づいた軽量だが強力なセカンダリ検証がトリガーされる。
攻撃は、エントロピールルパターンが元のタスクとフリップタスクの両方にわたって持続している場合にのみ確認され、LCMの出力が強制的に制御されていることが証明される。
大規模な評価では、DualSentinelは高い有効性(ほぼゼロの偽陽性による検出精度)と極めて効率的(無視可能な追加コスト)の両方を示し、デプロイされたLCMの確保に向けた真に実践的な道筋を提供する。
ソースコードはhttps://doi.org/10.5281/zenodo.18479273でアクセスできる。
関連論文リスト
- PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文 参考訳(メタデータ) (2025-11-20T10:25:45Z) - Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning [89.1856483797116]
MLLMをベースとした組込みエージェントに視覚的バックドアを注入する最初のフレームワークであるBEATを紹介する。
テキストトリガーとは異なり、オブジェクトトリガーは視点や照明の幅が広いため、確実に移植することは困難である。
BEATは攻撃の成功率を最大80%まで達成し、強い良識のあるタスクパフォーマンスを維持します。
論文 参考訳(メタデータ) (2025-10-31T16:50:49Z) - ConfGuard: A Simple and Effective Backdoor Detection for Large Language Models [23.236088751922807]
バックドア攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
既存の防衛手法の多くは、主に分類タスクのために設計されており、自己回帰性やLLMの膨大な出力空間に対して効果がない。
本稿では,トークンの信頼度をスライディングウィンドウに監視してシーケンスロックを識別する,軽量かつ効果的な検出手法ConfGuardを提案する。
論文 参考訳(メタデータ) (2025-08-02T13:38:04Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。
ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文 参考訳(メタデータ) (2025-04-02T09:21:26Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning [34.73320827764541]
テキスト・トゥ・イメージ(T2I)モデルは一般的に、機密画像の発生を防ぐために安全フィルタを配置する。
最近のジェイルブレイク攻撃手法は、LSMが敵のプロンプトを生成するように手動で設計する。
本稿では,LLMの推論能力を高めることを目的としたReason2Attack(R2A)を提案する。
論文 参考訳(メタデータ) (2025-03-23T08:40:39Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Understanding and Enhancing the Transferability of Jailbreaking Attacks [12.446931518819875]
脱獄攻撃は、オープンソースの大規模言語モデル(LLM)を効果的に操作し、有害な応答を生成する。
本研究は, モデルが意図的知覚に与える影響を分析し, 脱獄攻撃の伝達可能性について検討する。
そこで本研究では,入力中の中性インテリジェントトークンを均一に分散するPerceived-Iportance Flatten (PiF)法を提案する。
論文 参考訳(メタデータ) (2025-02-05T10:29:54Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。