Fugu-MT 論文翻訳(概要): MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs

論文の概要: MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs

arxiv url: http://arxiv.org/abs/2602.18782v1
Date: Sat, 21 Feb 2026 10:17:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.31127
Title: MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs
Title（参考訳）: ManATEE:LLMの推論時軽量拡散型安全対策
Authors: Chun Yan Ryan Kan, Tommy Tran, Vedant Yadav, Ava Cai, Kevin Zhu, Ruizhe Li, Maheep Chaudhary,
Abstract要約: 本稿では,良性表現多様体上の密度推定を用いた予測時間ディフェンス MANATEE を提案する。特定のデータセットでアタック成功率を最大100%削減し、良質な入力でモデルユーティリティを保存する。
参考スコア（独自算出の注目度）: 5.389668207379741
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Defending LLMs against adversarial jailbreak attacks remains an open challenge. Existing defenses rely on binary classifiers that fail when adversarial input falls outside the learned decision boundary, and repeated fine-tuning is computationally expensive while potentially degrading model capabilities. We propose MANATEE, an inference-time defense that uses density estimation over a benign representation manifold. MANATEE learns the score function of benign hidden states and uses diffusion to project anomalous representations toward safe regions--requiring no harmful training data and no architectural modifications. Experiments across Mistral-7B-Instruct, Llama-3.1-8B-Instruct, and Gemma-2-9B-it demonstrate that MANATEE reduce Attack Success Rate by up to 100\% on certain datasets, while preserving model utility on benign inputs.
Abstract（参考訳）: LLMを敵の脱獄攻撃から守ることは、依然としてオープンな課題だ。既存の防御は、逆入力が学習された決定境界外にあるときに失敗するバイナリ分類器に依存しており、繰り返し微調整は計算コストが高く、モデル能力は劣化する可能性がある。本稿では,良性表現多様体上の密度推定を用いた予測時間ディフェンス MANATEE を提案する。マナテは、良質な隠れ状態のスコア関数を学習し、拡散を利用して安全な領域に向けて異常な表現を投影する。 Mistral-7B-Instruct、Llama-3.1-8B-Instruct、Gemma-2-9B-itによる実験では、MANATEEが特定のデータセット上での攻撃成功率を最大100\%削減し、良質な入力でモデルユーティリティを保存することを示した。

関連論文リスト

Merging Triggers, Breaking Backdoors: Defensive Poisoning for Instruction-Tuned Language Models [20.579487120115882]
大規模言語モデル(LLM)は、特に命令チューニングによって、非常に高度な自然言語処理(NLP)を持つ。人やWebソースから収集される大規模なデータセットに依存しているため、バックドア攻撃に対して脆弱である。 MB-Defense(MB-Defense)は,多様なバックドア脅威に対して,命令学習型LDMを免疫する新しい訓練パイプラインである。
論文参考訳（メタデータ） (2026-01-07T23:30:26Z)
Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。 Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文参考訳（メタデータ） (2025-08-16T15:03:33Z)
MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。 OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文参考訳（メタデータ） (2025-06-03T01:37:09Z)
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文参考訳（メタデータ） (2025-05-22T11:47:08Z)
Self-Destructive Language Model [13.808746955144771]
有害な微調整攻撃は、大規模言語モデル(LLM)のセキュリティに大きな脅威をもたらす本報告では,LEMを自己破壊モデルに変換するアライメント・エンハンス・ディフェンスであるSEAMについて紹介する。
論文参考訳（メタデータ） (2025-05-18T01:08:18Z)
SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning [48.42431979599426]
MLLM(Multimodal Large Language Models)のための安全アンラーニングベンチマークであるSAFEERASERを提案する。我々は2つの観点から非学習手法を総合的に評価する。実験により、PD損失と既存の未学習手法を組み合わせることで、過剰な鍛造を効果的に防止できることが示された。
論文参考訳（メタデータ） (2025-02-18T04:09:46Z)
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文参考訳（メタデータ） (2025-02-03T18:59:16Z)
Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation [2.3080718283523827]
大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。わずかな入力摂動が有害または誤解を招く可能性のある敵攻撃。勾配に基づく防御接尾辞生成アルゴリズムはLLMの堅牢性を高めるために設計されている。
論文参考訳（メタデータ） (2024-12-18T10:49:41Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文参考訳（メタデータ） (2024-06-24T19:29:47Z)
Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。 C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文参考訳（メタデータ） (2024-05-24T14:20:09Z)
Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文参考訳（メタデータ） (2023-10-28T08:21:16Z)
Avoid Adversarial Adaption in Federated Learning by Multi-Metric Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。 FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。 MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文参考訳（メタデータ） (2023-06-06T11:44:42Z)
RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。 RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文参考訳（メタデータ） (2022-07-12T19:34:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。