論文の概要: AntiDote: Bi-level Adversarial Training for Tamper-Resistant LLMs
- arxiv url: http://arxiv.org/abs/2509.08000v1
- Date: Sat, 06 Sep 2025 16:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.190653
- Title: AntiDote: Bi-level Adversarial Training for Tamper-Resistant LLMs
- Title(参考訳): AntiDote: タンパ抵抗LDMのための二段階対向訓練
- Authors: Debdeep Sanyal, Manodeep Ray, Murari Mandal,
- Abstract要約: 現在の安全対策は、オープンウェイトな大規模言語モデルの一般的な機能を維持するのに苦労している。
本稿では,2段階最適化手法であるAntiDoteを紹介した。
我々は,52件のレッドチーム攻撃に対して,このアプローチを検証した。
- 参考スコア(独自算出の注目度): 7.176280545594957
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The release of open-weight large language models (LLMs) creates a tension between advancing accessible research and preventing misuse, such as malicious fine-tuning to elicit harmful content. Current safety measures struggle to preserve the general capabilities of the LLM while resisting a determined adversary with full access to the model's weights and architecture, who can use full-parameter fine-tuning to erase existing safeguards. To address this, we introduce AntiDote, a bi-level optimization procedure for training LLMs to be resistant to such tampering. AntiDote involves an auxiliary adversary hypernetwork that learns to generate malicious Low-Rank Adaptation (LoRA) weights conditioned on the defender model's internal activations. The defender LLM is then trained with an objective to nullify the effect of these adversarial weight additions, forcing it to maintain its safety alignment. We validate this approach against a diverse suite of 52 red-teaming attacks, including jailbreak prompting, latent space manipulation, and direct weight-space attacks. AntiDote is upto 27.4\% more robust against adversarial attacks compared to both tamper-resistance and unlearning baselines. Crucially, this robustness is achieved with a minimal trade-off in utility, incurring a performance degradation of upto less than 0.5\% across capability benchmarks including MMLU, HellaSwag, and GSM8K. Our work offers a practical and compute efficient methodology for building open-weight models where safety is a more integral and resilient property.
- Abstract(参考訳): オープンウェイトな大規模言語モデル(LLM)のリリースは、アクセス可能な研究の進展と、有害なコンテンツを引き出す悪質な微調整などの誤用の防止の間に緊張を生じさせる。
現在の安全対策は、LLMの一般的な能力を維持するのに苦労し、モデルの重量とアーキテクチャへの完全なアクセスで決定された敵に抵抗し、既存の安全ガードを消し去るためにフルパラメータの微調整を使用することができる。
これを解決するために,両レベル最適化手法であるAntiDoteを導入する。
AntiDoteは、ディフェンダーモデルの内部アクティベーションで条件付けられた悪質なローランド適応(LoRA)重みを生成することを学習する補助的敵ハイパーネットワークである。
ディフェンダーLSMは、これらの敵の重み付けの効果を無効化し、安全アライメントを維持するために訓練される。
我々はこの手法を、Jailbreakプロンプト、潜伏空間操作、直接重量空間攻撃を含む52種類のレッドチーム攻撃に対して検証する。
AntiDoteは、タンパー抵抗とアンラーニングベースラインの両方と比較して、敵の攻撃に対して最大で27.4\%強固である。
重要なことに、このロバスト性は実用性において最小限のトレードオフによって達成され、MMLU、HellaSwag、GSM8Kなどの能力ベンチマークで0.55%未満のパフォーマンス低下が生じる。
我々の研究は、安全がより一体的でレジリエントな性質を持つオープンウェイトモデルを構築するための実用的で効率的な方法論を提供する。
関連論文リスト
- Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。
Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。
実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文 参考訳(メタデータ) (2025-08-16T15:03:33Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。
ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文 参考訳(メタデータ) (2025-04-02T09:21:26Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [23.793583584784685]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全対策を回避し、有害または不適切な出力を誘発するジェイルブレイク攻撃の影響を受ける。
LATPC(Latent-space Adrial Training with Post-aware framework)を紹介する。
LATPCは有害な入力と良性入力を対比することにより安全性に重要な潜伏次元を同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-30T08:41:39Z) - Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。
安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。
この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - Tamper-Resistant Safeguards for Open-Weight LLMs [57.90526233549399]
オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。
本手法は良性を保持しながらタンパー抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T17:59:12Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。