論文の概要: Robust LLM safeguarding via refusal feature adversarial training
- arxiv url: http://arxiv.org/abs/2409.20089v1
- Date: Mon, 30 Sep 2024 08:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 18:56:57.487921
- Title: Robust LLM safeguarding via refusal feature adversarial training
- Title(参考訳): 拒絶機能付き対向訓練によるロバストLDM保護
- Authors: Lei Yu, Virginie Do, Karen Hambardzumyan, Nicola Cancedda,
- Abstract要約: 大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 15.76605079209956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are vulnerable to adversarial attacks that can elicit harmful responses. Defending against such attacks remains challenging due to the opacity of jailbreaking mechanisms and the high computational cost of training LLMs robustly. We demonstrate that adversarial attacks share a universal mechanism for circumventing LLM safeguards that works by ablating a dimension in the residual stream embedding space called the refusal feature. We further show that the operation of refusal feature ablation (RFA) approximates the worst-case perturbation of offsetting model safety. Based on these findings, we propose Refusal Feature Adversarial Training (ReFAT), a novel algorithm that efficiently performs LLM adversarial training by simulating the effect of input-level attacks via RFA. Experiment results show that ReFAT significantly improves the robustness of three popular LLMs against a wide range of adversarial attacks, with considerably less computational overhead compared to existing adversarial training methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
このような攻撃に対する防御は、脱獄機構の不透明さと、LSMを堅牢に訓練するための高い計算コストのため、依然として困難である。
敵攻撃は,リファレル特徴と呼ばれる残留ストリーム埋め込み空間の次元を損なうことで,LDMの安全対策を回避する普遍的なメカニズムを共有できることを示す。
さらに, オフセットモデル安全性の最悪の乱れに対して, RFA (Refusal Feature ablation) の動作が近似可能であることを示す。
これらの知見に基づいて,RFAによる入力レベル攻撃の効果をシミュレーションし,LLM逆行訓練を効率的に行う新しいアルゴリズムであるRefusal Feature Adversarial Training (ReFAT)を提案する。
実験結果から,ReFATは3つのLLMの幅広い敵攻撃に対する堅牢性を大幅に向上することが示された。
関連論文リスト
- Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Defending against Reverse Preference Attacks is Difficult [26.872318173182414]
大きな言語モデル(LLM)は、有害なデータセットに対する教師付き微調整(SFT)のようなトレーニング時の攻撃に対して脆弱である。
本研究では,LLMが人間からのフィードバックから強化学習を行う際に,相手の報酬を用いて有害な行動を学習できるようにするために,Reverse Preference Attacks (RPA)を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - Tamper-Resistant Safeguards for Open-Weight LLMs [57.90526233549399]
オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。
本手法は良性を保持しながらタンパー抵抗を大幅に改善する。
以上の結果から, タンパー抵抗はトラクタブルな問題であることがわかった。
論文 参考訳(メタデータ) (2024-08-01T17:59:12Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Evaluating and Safeguarding the Adversarial Robustness of Retrieval-Based In-Context Learning [21.018893978967053]
In-Context Learning (ICL) は、プロンプトでデモをエンコードするために使用される選択、順序、動詞に敏感である。
Retrieval-Augmented ICLメソッドは、レトリバーを活用して、意味論的に関連する例を例示として抽出することで、この問題に対処しようとする。
本研究は, 検索強化モデルにより, 検体攻撃に対する堅牢性が向上することを明らかにする。
そこで本研究では,攻撃したサンプルを用いてサンプルプールを充実させる,効果的な訓練自由対人防御手法であるDARDを導入する。
論文 参考訳(メタデータ) (2024-05-24T23:56:36Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。