論文の概要: Closing the Distribution Gap in Adversarial Training for LLMs
- arxiv url: http://arxiv.org/abs/2602.15238v1
- Date: Mon, 16 Feb 2026 22:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.927545
- Title: Closing the Distribution Gap in Adversarial Training for LLMs
- Title(参考訳): LLMの対人訓練における配電ギャップの閉鎖
- Authors: Chengzhi Hu, Jonas Dornbusch, David Lüdke, Stephan Günnemann, Leo Schwinn,
- Abstract要約: LLMの対抗訓練は、敵に対する堅牢性を確実に改善する最も有望な方法の1つである。
現在の対人訓練アルゴリズムは、トレーニングセットにおける敵の損失を最小限に抑えるが、データ分布を不十分にカバーし、一見単純な攻撃の脆弱性をもたらすと我々は主張する。
そこで我々は,プロンプトと応答の真の結合分布を近似するために,DAT(Distributal Adversarial Training)を提案する。
- 参考スコア(独自算出の注目度): 50.33186122381395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial training for LLMs is one of the most promising methods to reliably improve robustness against adversaries. However, despite significant progress, models remain vulnerable to simple in-distribution exploits, such as rewriting prompts in the past tense or translating them into other languages. We argue that this persistent fragility stems from a fundamental limitation in current adversarial training algorithms: they minimize adversarial loss on their training set but inadequately cover the data distribution, resulting in vulnerability to seemingly simple attacks. To bridge this gap, we propose Distributional Adversarial Training, DAT. We leverage Diffusion LLMs to approximate the true joint distribution of prompts and responses, enabling generation of diverse, high-likelihood samples that address generalization failures. By combining optimization over the data distribution provided by the diffusion model with continuous adversarial training, DAT achieves substantially higher adversarial robustness than previous methods.
- Abstract(参考訳): LLMの対抗訓練は、敵に対する堅牢性を確実に改善する最も有望な方法の1つである。
しかし、大きな進歩にもかかわらず、モデルは過去時制でプロンプトを書き直したり、他の言語に翻訳したりといった単純な非配布エクスプロイトに弱いままである。
トレーニングセットにおける敵の損失を最小限に抑えるが、データ分布を不十分にカバーし、結果として一見単純な攻撃に対する脆弱性をもたらす。
このギャップを埋めるため,DAT(Distributal Adversarial Training, Distributional Adversarial Training)を提案する。
我々は拡散LDMを用いてプロンプトと応答の真の結合分布を近似し、一般化失敗に対処する多種多様な高次サンプルを生成する。
DATは拡散モデルによって提供されるデータ分布に対する最適化と連続的な逆方向のトレーニングを組み合わせることで、従来の手法よりもはるかに高い逆方向のロバスト性を実現する。
関連論文リスト
- Deep Leakage with Generative Flow Matching Denoiser [54.05993847488204]
再建プロセスに先立って生成フローマッチング(FM)を組み込んだ新しい深部リーク攻撃(DL)を導入する。
当社のアプローチは、ピクセルレベル、知覚的、特徴に基づく類似度測定において、最先端の攻撃よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-21T14:51:01Z) - Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Retracing the Past: LLMs Emit Training Data When They Get Lost [18.852558767604823]
大規模言語モデルにおけるトレーニングデータの記憶は、プライバシーと著作権に関する重大な懸念を生じさせる。
本稿では,記憶されたデータを抽出するための基本的枠組みであるCIAについて紹介する。
論文 参考訳(メタデータ) (2025-10-27T03:48:24Z) - MixAT: Combining Continuous and Discrete Adversarial Training for LLMs [10.570402333857261]
MixATは、トレーニング中により強力な離散的および高速な連続攻撃を組み合わせる新しい方法である。
以上の結果から,MixATは前回の防御よりもかなり優れたロバスト性(ALO-ASR 20%)を達成できることが示された。
この結果から,MixATの離散連続防衛は,計算オーバーヘッドを最小限に抑えつつ,原理的かつ高精度なトレードオフを提供することが示された。
論文 参考訳(メタデータ) (2025-05-22T17:32:50Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - DSRM: Boost Textual Adversarial Training with Distribution Shift Risk
Minimization [36.10642858867033]
敵対的訓練は、ディープ言語モデルの堅牢性を改善するための最も優れた方法の1つである。
クリーンなデータのみを用いて対人訓練を行う新しい効果的な方法を提案する。
本手法では, 学習にゼロ対向検定が必要であり, 現行の対向検定法と比較して, 時間消費を最大70%削減する。
論文 参考訳(メタデータ) (2023-06-27T02:46:08Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。