論文の概要: MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs
- arxiv url: http://arxiv.org/abs/2602.18782v1
- Date: Sat, 21 Feb 2026 10:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.31127
- Title: MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs
- Title(参考訳): ManATEE:LLMの推論時軽量拡散型安全対策
- Authors: Chun Yan Ryan Kan, Tommy Tran, Vedant Yadav, Ava Cai, Kevin Zhu, Ruizhe Li, Maheep Chaudhary,
- Abstract要約: 本稿では,良性表現多様体上の密度推定を用いた予測時間ディフェンス MANATEE を提案する。
特定のデータセットでアタック成功率を最大100%削減し、良質な入力でモデルユーティリティを保存する。
- 参考スコア(独自算出の注目度): 5.389668207379741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Defending LLMs against adversarial jailbreak attacks remains an open challenge. Existing defenses rely on binary classifiers that fail when adversarial input falls outside the learned decision boundary, and repeated fine-tuning is computationally expensive while potentially degrading model capabilities. We propose MANATEE, an inference-time defense that uses density estimation over a benign representation manifold. MANATEE learns the score function of benign hidden states and uses diffusion to project anomalous representations toward safe regions--requiring no harmful training data and no architectural modifications. Experiments across Mistral-7B-Instruct, Llama-3.1-8B-Instruct, and Gemma-2-9B-it demonstrate that MANATEE reduce Attack Success Rate by up to 100\% on certain datasets, while preserving model utility on benign inputs.
- Abstract(参考訳): LLMを敵の脱獄攻撃から守ることは、依然としてオープンな課題だ。
既存の防御は、逆入力が学習された決定境界外にあるときに失敗するバイナリ分類器に依存しており、繰り返し微調整は計算コストが高く、モデル能力は劣化する可能性がある。
本稿では,良性表現多様体上の密度推定を用いた予測時間ディフェンス MANATEE を提案する。
マナテは、良質な隠れ状態のスコア関数を学習し、拡散を利用して安全な領域に向けて異常な表現を投影する。
Mistral-7B-Instruct、Llama-3.1-8B-Instruct、Gemma-2-9B-itによる実験では、MANATEEが特定のデータセット上での攻撃成功率を最大100\%削減し、良質な入力でモデルユーティリティを保存することを示した。
関連論文リスト
- Merging Triggers, Breaking Backdoors: Defensive Poisoning for Instruction-Tuned Language Models [20.579487120115882]
大規模言語モデル(LLM)は、特に命令チューニングによって、非常に高度な自然言語処理(NLP)を持つ。
人やWebソースから収集される大規模なデータセットに依存しているため、バックドア攻撃に対して脆弱である。
MB-Defense(MB-Defense)は,多様なバックドア脅威に対して,命令学習型LDMを免疫する新しい訓練パイプラインである。
論文 参考訳(メタデータ) (2026-01-07T23:30:26Z) - Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。
Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。
実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文 参考訳(メタデータ) (2025-08-16T15:03:33Z) - Self-Destructive Language Model [13.808746955144771]
有害な微調整攻撃は、大規模言語モデル(LLM)のセキュリティに大きな脅威をもたらす
本報告では,LEMを自己破壊モデルに変換するアライメント・エンハンス・ディフェンスであるSEAMについて紹介する。
論文 参考訳(メタデータ) (2025-05-18T01:08:18Z) - SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning [48.42431979599426]
MLLM(Multimodal Large Language Models)のための安全アンラーニングベンチマークであるSAFEERASERを提案する。
我々は2つの観点から非学習手法を総合的に評価する。
実験により、PD損失と既存の未学習手法を組み合わせることで、過剰な鍛造を効果的に防止できることが示された。
論文 参考訳(メタデータ) (2025-02-18T04:09:46Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation [2.3080718283523827]
大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。
わずかな入力摂動が有害または誤解を招く可能性のある敵攻撃。
勾配に基づく防御接尾辞生成アルゴリズムはLLMの堅牢性を高めるために設計されている。
論文 参考訳(メタデータ) (2024-12-18T10:49:41Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。