論文の概要: Feature-Aware Malicious Output Detection and Mitigation
- arxiv url: http://arxiv.org/abs/2504.09191v1
- Date: Sat, 12 Apr 2025 12:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:08.520937
- Title: Feature-Aware Malicious Output Detection and Mitigation
- Title(参考訳): 特徴認識型有害な出力検出と軽減
- Authors: Weilong Dong, Peiguang Li, Yu Tian, Xinyi Zeng, Fengdi Li, Sirui Wang,
- Abstract要約: 有害反応拒絶(FMM)のための特徴認識手法を提案する。
FMMは、モデルの特徴空間内に悪意のある特徴が存在することを検知し、モデルの拒絶機構を適応的に調整する。
実験により,複数の言語モデルと多様な攻撃手法を用いたアプローチの有効性が示された。
- 参考スコア(独自算出の注目度): 8.378272216429954
- License:
- Abstract: The rapid advancement of large language models (LLMs) has brought significant benefits to various domains while introducing substantial risks. Despite being fine-tuned through reinforcement learning, LLMs lack the capability to discern malicious content, limiting their defense against jailbreak. To address these safety concerns, we propose a feature-aware method for harmful response rejection (FMM), which detects the presence of malicious features within the model's feature space and adaptively adjusts the model's rejection mechanism. By employing a simple discriminator, we detect potential malicious traits during the decoding phase. Upon detecting features indicative of toxic tokens, FMM regenerates the current token. By employing activation patching, an additional rejection vector is incorporated during the subsequent token generation, steering the model towards a refusal response. Experimental results demonstrate the effectiveness of our approach across multiple language models and diverse attack techniques, while crucially maintaining the models' standard generation capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、重大なリスクを導入しながら、様々な領域に大きなメリットをもたらした。
強化学習によって微調整されているにもかかわらず、LLMは悪意のあるコンテンツを識別する能力がなく、ジェイルブレイクに対する防御を制限している。
本稿では,モデルの特徴空間内に悪意のある特徴が存在することを検知し,モデルの拒絶機構を適応的に調整する,有害応答拒絶(FMM)機能認識手法を提案する。
単純な判別器を用いることで、復号フェーズ中に潜在的に有害な特性を検出する。
有毒なトークンを示す特徴を検出すると、FMMは現在のトークンを再生する。
アクティベーションパッチの適用により、後続のトークン生成中に追加の拒絶ベクトルが組み込まれ、拒絶応答に向けてモデルを操る。
実験により,複数の言語モデルにまたがるアプローチの有効性が実証された。
関連論文リスト
- Identify Backdoored Model in Federated Learning via Individual Unlearning [7.200910949076064]
裏口攻撃は、フェデレートラーニング(FL)の堅牢性に重大な脅威をもたらす
FLにおける悪意のあるモデルを特定するために,ローカルモデル上で個別の未学習を利用する手法であるMASAを提案する。
私たちの知る限りでは、FLの悪意あるモデルを特定するために機械学習を活用するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-11-01T21:19:47Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense [5.150608040339816]
本稿では,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成する新しいソリューションであるPADLを紹介する。
提案手法は,StarGANv2,BlendGAN,DiffAE,StableDiffusion,StableDiffusionXLなど,さまざまなアーキテクチャ設計の未確認モデルに一般化する。
論文 参考訳(メタデータ) (2024-09-26T15:16:32Z) - Improving Adversarial Robustness in Android Malware Detection by Reducing the Impact of Spurious Correlations [3.7937308360299116]
機械学習(ML)は、Androidのマルウェア検出(AMD)において大きな進歩を見せている。
しかし、現実的な回避攻撃に対するMLのレジリエンスは、AMDにとって大きな障害である。
本研究では,マルウェアサンプルとAEの分布を調整することで,AMDの一般化性を向上させるための領域適応手法を提案する。
論文 参考訳(メタデータ) (2024-08-27T17:01:12Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - MalPurifier: Enhancing Android Malware Detection with Adversarial
Purification against Evasion Attacks [19.68134775248897]
MalPurifierは敵の浄化を利用して、独立して摂動を除去し、軽く柔軟な方法で攻撃を緩和する。
2つのAndroidマルウェアデータセットの実験結果は、MalPurifierが最先端の防御よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-12-11T14:48:43Z) - Exploring Model Dynamics for Accumulative Poisoning Discovery [62.08553134316483]
そこで我々は,モデルレベルの情報を通して,防衛を探索するための新しい情報尺度,すなわち,記憶の離散性(Memorization Discrepancy)を提案する。
暗黙的にデータ操作の変更をモデル出力に転送することで、メモリ識別は許容できない毒のサンプルを発見することができる。
我々は、その性質を徹底的に探求し、累積中毒に対する防御のために、離散型サンプル補正(DSC)を提案する。
論文 参考訳(メタデータ) (2023-06-06T14:45:24Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。