論文の概要: MixAT: Combining Continuous and Discrete Adversarial Training for LLMs
- arxiv url: http://arxiv.org/abs/2505.16947v1
- Date: Thu, 22 May 2025 17:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.503785
- Title: MixAT: Combining Continuous and Discrete Adversarial Training for LLMs
- Title(参考訳): MixAT: LLMの連続的・離散的教育
- Authors: Csaba Dékány, Stefan Balauca, Robin Staab, Dimitar I. Dimitrov, Martin Vechev,
- Abstract要約: MixATは、トレーニング中により強力な離散的および高速な連続攻撃を組み合わせる新しい方法である。
以上の結果から,MixATは前回の防御よりもかなり優れたロバスト性(ALO-ASR 20%)を達成できることが示された。
この結果から,MixATの離散連続防衛は,計算オーバーヘッドを最小限に抑えつつ,原理的かつ高精度なトレードオフを提供することが示された。
- 参考スコア(独自算出の注目度): 2.679689033125693
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite recent efforts in Large Language Models (LLMs) safety and alignment, current adversarial attacks on frontier LLMs are still able to force harmful generations consistently. Although adversarial training has been widely studied and shown to significantly improve the robustness of traditional machine learning models, its strengths and weaknesses in the context of LLMs are less understood. Specifically, while existing discrete adversarial attacks are effective at producing harmful content, training LLMs with concrete adversarial prompts is often computationally expensive, leading to reliance on continuous relaxations. As these relaxations do not correspond to discrete input tokens, such latent training methods often leave models vulnerable to a diverse set of discrete attacks. In this work, we aim to bridge this gap by introducing MixAT, a novel method that combines stronger discrete and faster continuous attacks during training. We rigorously evaluate MixAT across a wide spectrum of state-of-the-art attacks, proposing the At Least One Attack Success Rate (ALO-ASR) metric to capture the worst-case vulnerability of models. We show MixAT achieves substantially better robustness (ALO-ASR < 20%) compared to prior defenses (ALO-ASR > 50%), while maintaining a runtime comparable to methods based on continuous relaxations. We further analyze MixAT in realistic deployment settings, exploring how chat templates, quantization, low-rank adapters, and temperature affect both adversarial training and evaluation, revealing additional blind spots in current methodologies. Our results demonstrate that MixAT's discrete-continuous defense offers a principled and superior robustness-accuracy tradeoff with minimal computational overhead, highlighting its promise for building safer LLMs. We provide our code and models at https://github.com/insait-institute/MixAT.
- Abstract(参考訳): 近年のLLM(Large Language Models)の安全性とアライメントの取り組みにもかかわらず、フロンティアのLLMに対する現在の敵攻撃は、有害な世代を継続的に強制することができる。
逆行訓練は従来の機械学習モデルの頑健さを著しく向上させることが広く研究されているが、LLMの文脈における強みや弱点は理解されていない。
具体的には、既存の個別の敵対的攻撃は有害なコンテンツを生成するのに効果的であるが、具体的な敵対的プロンプトを用いたLDMの訓練は、しばしば計算コストがかかり、連続的な緩和に依存する。
これらの緩和は離散的な入力トークンに対応しないため、そのような潜在訓練手法は、様々な個別攻撃に対して脆弱なモデルを残すことが多い。
本研究は,MixATの導入により,このギャップを埋めることを目的としている。
我々は、At Least One Attack Success Rate (ALO-ASR) メトリックを用いて、MixATを広範囲にわたる最先端の攻撃に対して厳格に評価し、最悪のケースの脆弱性を捕捉する。
連続緩和に基づく手法に匹敵する実行環境を維持しつつ,MixAT が先行防御 (ALO-ASR > 50%) よりもはるかに優れたロバスト性 (ALO-ASR < 20%) を達成することを示す。
さらに、MixATを現実的なデプロイメント設定で分析し、チャットテンプレート、量子化、低ランクアダプタ、温度が敵のトレーニングと評価の両方にどのように影響するかを調べ、現在の方法論に新たな盲点があることを明らかにする。
この結果から,MixAT の離散連続防衛は,より安全な LLM の構築を約束する上で,計算オーバーヘッドを最小限に抑えつつ,原理的かつ優れたロバスト性-精度トレードオフを提供することが示された。
コードとモデルはhttps://github.com/insait-institute/MixAT.comで公開しています。
関連論文リスト
- Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。
我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-30T08:41:39Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。