論文の概要: Defusing the Trigger: Plug-and-Play Defense for Backdoored LLMs via Tail-Risk Intrinsic Geometric Smoothing
- arxiv url: http://arxiv.org/abs/2604.24162v1
- Date: Mon, 27 Apr 2026 08:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.805449
- Title: Defusing the Trigger: Plug-and-Play Defense for Backdoored LLMs via Tail-Risk Intrinsic Geometric Smoothing
- Title(参考訳): Trigger の定義:Tail-Risk 内在的な幾何学的滑らか化によるバックドア LLM のプラグアンドプレイ防御
- Authors: Kaisheng Fan, Weizhe Zhang, Yishu Gao, Tegawendé F. Bissyandé, Xunzhu Tang,
- Abstract要約: Tail-risk Intrinsic Geometric Smoothing (TIGS)は、大規模な言語モデルにおけるバックドア攻撃に対するプラグアンドプレイの推論時防御である。
TIGSはコンテンツ認識型テールリスクスクリーニングを使用して、不審な注意頭と行を識別する。
その後、本質的な幾何学的滑らか化を施す一方で、より強いフルロー収縮はトリガー支配的なルーティングを妨害する。
- 参考スコア(独自算出の注目度): 16.949753329459796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Defending against backdoor attacks in large language models remains a critical practical challenge. Existing defenses mitigate these threats but typically incur high preparation costs and degrade utility via offline purification, or introduce severe latency via complex online interventions. To overcome this dichotomy, we present Tail-risk Intrinsic Geometric Smoothing (TIGS), a plug-and-play inference-time defense requiring no parameter updates, external clean data, or auxiliary generation. TIGS leverages the observation that successful backdoor triggers consistently induce localized attention collapse within the semantic content region. Operating entirely within the native forward pass, TIGS first performs content-aware tail-risk screening to identify suspicious attention heads and rows using sample-internal signals. It then applies intrinsic geometric smoothing: a weak content-domain correction preserves semantic anchoring, while a stronger full-row contraction disrupts trigger-dominant routing. Finally, a controlled full-row write-back reconstructs the attention matrix to ensure inference stability. Extensive evaluations demonstrate that TIGS substantially suppresses attack success rates while strictly preserving clean reasoning and open-ended semantic consistency. Crucially, this favorable security-utility-latency equilibrium persists across diverse architectures, including dense, reasoning-oriented, and sparse mixture-of-experts models. By structurally disrupting adversarial routing with marginal latency overhead, TIGS establishes a highly practical, deployment-ready defense standard for state-of-the-art LLMs.
- Abstract(参考訳): 大規模な言語モデルにおけるバックドア攻撃に対する防御は、依然として重要な実践的課題である。
既存の防衛はこれらの脅威を軽減しますが、通常、高い準備コストを発生させ、オフラインの浄化によってユーティリティを劣化させます。
この二分法を克服するため,Tail-risk Intrinsic Geometric Smoothing (TIGS) を提案する。
TIGSは、成功したバックドアトリガーがセマンティックコンテンツ領域内で常に局所的な注意崩壊を引き起こすという観察を活用している。
TIGSは、ネイティブフォワードパス内で完全に動作し、まず、サンプル内部信号を使用して疑わしい注意頭と行を特定するために、コンテンツ対応のテールリスクスクリーニングを実行する。
弱い内容領域補正はセマンティックアンカーを保ち、強いフルロー収縮はトリガー支配的なルーティングを妨害する。
最後に、制御されたフルロー書き込みバックがアテンションマトリックスを再構成し、推論安定性を確保する。
広範囲な評価は、TIGSが攻撃成功率を著しく抑制し、クリーンな推論とオープンエンドなセマンティック一貫性を厳格に保持していることを示している。
重要なことに、この好ましいセキュリティユーティリティとレイテンシの均衡は、密集、推論指向、スパース・ミックス・オブ・エキスパート(sparse Mixed-of-experts)モデルなど、さまざまなアーキテクチャにわたって持続する。
TIGSは、対向ルーティングを極端遅延オーバーヘッドで構造的に破壊することにより、最先端のLCMに対して非常に実用的で、デプロイ可能な防御標準を確立している。
関連論文リスト
- Scaling Exposes the Trigger: Input-Level Backdoor Detection in Text-to-Image Diffusion Models via Cross-Attention Scaling [12.573852448122716]
テキスト・ツー・イメージ(T2I)拡散モデルは画像合成において顕著な成功を収めているが、大規模データやオープンエコシステムへの依存は深刻なバックドアセキュリティリスクをもたらす。
既存の防御、特に入力レベルメソッドは、より実用的だが、しばしばステルスでセマンティクスを保存するトリガー設計の下で信頼性が低い観測可能な異常に頼っている。
入力レベルのバックドア検出フレームワークであるSETを提案する。これはマルチスケールの摂動下で応答オフセット機能を構築し、小さなクリーンなサンプル集合からコンパクトな良性応答空間を学習する。
論文 参考訳(メタデータ) (2026-04-14T08:31:37Z) - HomeGuard: VLM-based Embodied Safeguard for Identifying Contextual Risk in Household Task [42.665798473119516]
CG-CoT(Context-Guided Chain-of-Thought)を特徴とするアーキテクチャ非依存型セーフガードを提案する。
CG-CoTは、リスクアセスメントをアクティブな知覚に分解し、相互作用対象や関連する空間近傍への注意を順次固定する。
実験により、我々のモデルであるHomeGuardは安全性を大幅に向上し、ベースモデルと比較してリスクマッチ率を30%以上改善することが示された。
論文 参考訳(メタデータ) (2026-03-15T13:09:43Z) - ThreatFormer-IDS: Robust Transformer Intrusion Detection with Zero-Day Generalization and Explainable Attribution [0.0]
IoTおよび産業ネットワークの侵入検出には、進化するトラフィックと限定されたラベルの下で信頼性を維持しながら、低い偽陽性率で稀な攻撃を検出できるモデルが必要である。
本研究では,トランスフォーマーをベースとしたシーケンシャルモデリングフレームワークThreatFormer-IDSを提案する。
時系列評価を備えたToN IoTベンチマークでは、ThreatFormer-IDSがAUCROC 0.994、AUC-PR 0.956、Recall@1%FPR 0.910を達成した。
論文 参考訳(メタデータ) (2026-02-26T23:20:42Z) - Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。
本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。
CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。