論文の概要: Understanding and Improving Continuous Adversarial Training for LLMs via In-context Learning Theory
- arxiv url: http://arxiv.org/abs/2604.12817v1
- Date: Tue, 14 Apr 2026 14:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.508982
- Title: Understanding and Improving Continuous Adversarial Training for LLMs via In-context Learning Theory
- Title(参考訳): 文脈内学習理論によるLLMの連立学習の理解と改善
- Authors: Shaopeng Fu, Di Wang,
- Abstract要約: 敵対訓練(Adversarial Training、AT)は、大規模言語モデル(LLM)のジェイルブレイク攻撃に対する効果的な防御である。
近年の研究では,AT中のLLMの連続埋め込み空間内での逆入力を探索する連続AT(CAT)を提案する。
本稿では,テキスト内学習(ICL)理論に基づくLCM上のCATに関する最初の理論的解析を行う。
- 参考スコア(独自算出の注目度): 9.620161743969119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial training (AT) is an effective defense for large language models (LLMs) against jailbreak attacks, but performing AT on LLMs is costly. To improve the efficiency of AT for LLMs, recent studies propose continuous AT (CAT) that searches for adversarial inputs within the continuous embedding space of LLMs during AT. While CAT has achieved empirical success, its underlying mechanism, i.e., why adversarial perturbations in the embedding space can help LLMs defend against jailbreak prompts synthesized in the input token space, remains unknown. This paper presents the first theoretical analysis of CAT on LLMs based on in-context learning (ICL) theory. For linear transformers trained with adversarial examples from the embedding space on in-context linear regression tasks, we prove a robust generalization bound that has a negative correlation with the perturbation radius in the embedding space. This clearly explains why CAT can defend against jailbreak prompts from the LLM's token space. Further, the robust bound shows that the robustness of an adversarially trained LLM is closely related to the singular values of its embedding matrix. Based on this, we propose to improve LLM CAT by introducing an additional regularization term, which depends on singular values of the LLM's embedding matrix, into the objective function of CAT. Experiments on real-world LLMs demonstrate that our method can help LLMs achieve a better jailbreak robustness-utility tradeoff. The code is available at https://github.com/fshp971/continuous-adv-icl.
- Abstract(参考訳): 敵対的訓練(AT)は、大規模言語モデル(LLM)のジェイルブレイク攻撃に対する効果的な防御であるが、LLM上でのATの実行にはコストがかかる。
近年のLLMにおけるATの効率向上のために,AT中のLLMの連続埋め込み空間内の逆入力を探索する連続AT(CAT)を提案する。
CATは経験的な成功をおさめたが、その基盤となるメカニズム、すなわち、埋め込み空間における敵の摂動は、LLMが入力トークン空間で合成されたジェイルブレイクプロンプトを防御するのに役立つのかは、いまだ不明である。
本稿では,テキスト内学習(ICL)理論に基づくLCM上のCATに関する最初の理論的解析を行う。
文脈内線形回帰タスクにおける埋め込み空間の逆例で訓練された線形変圧器に対して、埋め込み空間における摂動半径と負の相関を持つ頑健な一般化境界を証明した。
このことは、LCMのトークン空間からのジェイルブレイクプロンプトに対してCATが防御できる理由を明確に説明している。
さらに、ロバスト境界は、敵対的に訓練された LLM のロバスト性がその埋め込み行列の特異値と密接に関連していることを示している。
そこで本研究では,LCMの埋め込み行列の特異値に依存する正規化項をCATの目的関数に導入することにより,LCM CATの改善を提案する。
実世界のLLM実験により,LLMがより優れたジェイルブレイクロバストネス・ユーティリティトレードオフを実現するのに役立つことを示す。
コードはhttps://github.com/fshp971/continuous-adv-iclで公開されている。
関連論文リスト
- LARGO: Latent Adversarial Reflection through Gradient Optimization for Jailbreaking LLMs [13.432303050813864]
LARGOは,流水性脱獄プロンプトを発生させる新規な潜伏自己反射攻撃である。
AdvBenchやJailbreakBenchのようなベンチマークでは、AutoDANを含む主要なジェイルブレイクテクニックを44ポイント上回っている。
論文 参考訳(メタデータ) (2025-05-16T04:12:16Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data [9.31120925026271]
本研究では, LLMが学習文書に分散した証拠から潜伏情報を推測する, 暗黙の帰納的推論(OOCR)について検討する。
ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパスにLSMを微調整する。
OOCRは様々なケースで成功するが、特にLLMが複雑な構造を学ぶ場合、信頼性が低いことも示している。
論文 参考訳(メタデータ) (2024-06-20T17:55:04Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。