論文の概要: AlignTree: Efficient Defense Against LLM Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2511.12217v1
- Date: Sat, 15 Nov 2025 13:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.682724
- Title: AlignTree: Efficient Defense Against LLM Jailbreak Attacks
- Title(参考訳): AlignTree: LLMの脱獄攻撃を効果的に防ぐ
- Authors: Gil Goren, Shahar Katz, Lior Wolf,
- Abstract要約: 大規模言語モデル(LLM)は、安全ガイドラインをバイパスし有害なコンテンツを生成する敵攻撃に対して脆弱である。
最小限の計算オーバーヘッドを維持しながらモデルアライメントを向上させるAlignTreeディフェンスを導入する。
- 参考スコア(独自算出の注目度): 48.805151796878505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are vulnerable to adversarial attacks that bypass safety guidelines and generate harmful content. Mitigating these vulnerabilities requires defense mechanisms that are both robust and computationally efficient. However, existing approaches either incur high computational costs or rely on lightweight defenses that can be easily circumvented, rendering them impractical for real-world LLM-based systems. In this work, we introduce the AlignTree defense, which enhances model alignment while maintaining minimal computational overhead. AlignTree monitors LLM activations during generation and detects misaligned behavior using an efficient random forest classifier. This classifier operates on two signals: (i) the refusal direction -- a linear representation that activates on misaligned prompts, and (ii) an SVM-based signal that captures non-linear features associated with harmful content. Unlike previous methods, AlignTree does not require additional prompts or auxiliary guard models. Through extensive experiments, we demonstrate the efficiency and robustness of AlignTree across multiple LLMs and benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全ガイドラインをバイパスし有害なコンテンツを生成する敵攻撃に対して脆弱である。
これらの脆弱性を緩和するには、堅牢かつ計算効率のよい防御機構が必要である。
しかし、既存のアプローチは高い計算コストを発生させるか、容易に回避できる軽量な防御に頼っているため、現実のLLMシステムでは現実的ではない。
本稿では,最小限の計算オーバーヘッドを維持しながらモデルアライメントを向上させるAlignTreeディフェンスを提案する。
AlignTreeは、生成中のLCMアクティベーションを監視し、効率的なランダム森林分類器を用いて不整合動作を検出する。
この分類器は2つの信号で動作します。
(i)拒絶方向 --不整合プロンプトをアクティベートする線形表現、
(ii)有害コンテンツに関連する非線形特徴をキャプチャするSVMベースの信号。
以前の方法とは異なり、AlignTreeは追加のプロンプトや補助ガードモデルを必要としない。
広範な実験を通じて、複数のLLMおよびベンチマークでAlignTreeの効率性と堅牢性を示す。
関連論文リスト
- Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs [0.0]
我々は、機密情報の未学習と脱獄攻撃に対する堅牢性に対処する様々な制約付き最適化の定式化について検討する。
私たちが提案する最も単純なポイントワイド制約ベースの介入は、計算コストの低減を図りながら、最大最小の介入よりも優れたパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2025-10-03T23:32:21Z) - TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models [31.35788474507371]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対してますます脆弱になっている。
本稿では,リアルタイムジェイルブレイク判定のための軽量フレームワークSTShieldを紹介する。
論文 参考訳(メタデータ) (2025-03-23T04:23:07Z) - Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification [17.500701903902094]
大規模言語モデル(LLM)は、有害な応答を誘発するクラフトプロンプトを使用するジェイルブレイク攻撃に対して脆弱である。
本稿では,LLMを微調整して生成したコンテンツを段階的に解毒する,堅牢な防衛フレームワークであるDEEPALIGNを提案する。
論文 参考訳(メタデータ) (2025-03-14T08:32:12Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。