論文の概要: Augmented Adversarial Trigger Learning
- arxiv url: http://arxiv.org/abs/2503.12339v1
- Date: Sun, 16 Mar 2025 03:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:34:21.765371
- Title: Augmented Adversarial Trigger Learning
- Title(参考訳): Augmented Adversarial Trigger Learning
- Authors: Zhe Wang, Yanjun Qi,
- Abstract要約: 対象を拡大した逆トリガー学習(ATLA: Adversarial Trigger Learning)を提案する。
我々は,ATLAが最先端技術より一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 14.365410701358579
- License:
- Abstract: Gradient optimization-based adversarial attack methods automate the learning of adversarial triggers to generate jailbreak prompts or leak system prompts. In this work, we take a closer look at the optimization objective of adversarial trigger learning and propose ATLA: Adversarial Trigger Learning with Augmented objectives. ATLA improves the negative log-likelihood loss used by previous studies into a weighted loss formulation that encourages the learned adversarial triggers to optimize more towards response format tokens. This enables ATLA to learn an adversarial trigger from just one query-response pair and the learned trigger generalizes well to other similar queries. We further design a variation to augment trigger optimization with an auxiliary loss that suppresses evasive responses. We showcase how to use ATLA to learn adversarial suffixes jailbreaking LLMs and to extract hidden system prompts. Empirically we demonstrate that ATLA consistently outperforms current state-of-the-art techniques, achieving nearly 100% success in attacking while requiring 80% fewer queries. ATLA learned jailbreak suffixes demonstrate high generalization to unseen queries and transfer well to new LLMs.
- Abstract(参考訳): 緩やかな最適化に基づく敵攻撃手法は、敵の引き金の学習を自動化し、jailbreakプロンプトやリークシステムプロンプトを生成する。
本研究では,対戦型トリガー学習の最適化目標について詳しく検討し,ATLA:Adversarial Trigger Learning with Augmented objectivesを提案する。
ATLAは、以前の研究で用いた負の対数損失を重み付けされた損失の定式化に改善し、学習した対数トリガが応答形式トークンにもっと最適化するように促す。
これにより、ATLAは1つのクエリ-レスポンスペアから逆トリガを学習し、学習したトリガは、他の類似クエリとよく似ています。
さらに、回避応答を抑制する補助損失を伴う拡張トリガ最適化のバリエーションを設計する。
そこで本研究では,ATLA を用いてジェイルブレイクする LLM の敵接尾辞を学習し,隠されたシステムプロンプトを抽出する方法を紹介する。
実証的に、ATLAは現在の最先端技術よりも一貫して優れており、80%のクエリを必要としながら攻撃にほぼ100%成功しています。
ATLAが学んだジェイルブレイクの接尾辞は、目に見えないクエリに高い一般化を示し、新しいLLMにうまく転送する。
関連論文リスト
- Computing Optimization-Based Prompt Injections Against Closed-Weights Models By Misusing a Fine-Tuning API [3.908034401768844]
本稿では,攻撃者が遠隔操作インタフェースから返却した損失情報を利用して,敵のプロンプトを探索する方法について述べる。
LLMのGoogle Geminiファミリでは65%から82%の攻撃成功率を示しています。
論文 参考訳(メタデータ) (2025-01-16T19:01:25Z) - Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。
本稿では,Token Highlighterという手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:10:02Z) - Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。
訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Defending Jailbreak Prompts via In-Context Adversarial Game [34.83853184278604]
In-Context Adversarial Game(ICAG)を導入し、細調整を必要とせずにジェイルブレイクを防御する。
静的データセットに依存する従来の方法とは異なり、ICAGは防御エージェントと攻撃エージェントの両方を強化するために反復的なプロセスを採用している。
ICAGにより保護されたLSMがジェイルブレイクの成功率を大幅に低下させるICAGの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-20T17:04:06Z) - Attacking Large Language Models with Projected Gradient Descent [49.19426387912186]
逆数プロンプトの射影勾配 Descent (PGD) は、最先端の離散最適化よりも最大1桁高速である。
我々のLPM用PGDは、同じ破壊的な攻撃結果を達成するために、最先端の離散最適化よりも最大1桁高速である。
論文 参考訳(メタデータ) (2024-02-14T13:13:26Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - ALMOST: Adversarial Learning to Mitigate Oracle-less ML Attacks via
Synthesis Tuning [18.758747687330384]
Oracleなしの機械学習(ML)攻撃は、さまざまなロジックロックスキームを壊した。
合成チューニングによるオラクルレスML攻撃を軽減するための逆学習フレームワークであるALMOSTを提案する。
論文 参考訳(メタデータ) (2023-03-06T18:55:58Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。