論文の概要: TASO: Jailbreak LLMs via Alternative Template and Suffix Optimization
- arxiv url: http://arxiv.org/abs/2511.18581v2
- Date: Wed, 26 Nov 2025 02:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.392532
- Title: TASO: Jailbreak LLMs via Alternative Template and Suffix Optimization
- Title(参考訳): TASO:代替テンプレートと接尾辞最適化によるジェイルブレイクLDM
- Authors: Yanting Wang, Runpeng Geng, Jinghui Chen, Minhao Cheng, Jinyuan Jia,
- Abstract要約: テンプレートと接尾辞を交互に最適化する新しいジェイルブレイク手法であるTASOを紹介する。
我々は,24個のLLMのベンチマークデータセットにおけるTASOの有効性を評価する。
- 参考スコア(独自算出の注目度): 52.01940078632388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent studies showed that LLMs are vulnerable to jailbreak attacks, where an attacker can perturb the input of an LLM to induce it to generate an output for a harmful question. In general, existing jailbreak techniques either optimize a semantic template intended to induce the LLM to produce harmful outputs or optimize a suffix that leads the LLM to initiate its response with specific tokens (e.g., "Sure"). In this work, we introduce TASO (Template and Suffix Optimization), a novel jailbreak method that optimizes both a template and a suffix in an alternating manner. Our insight is that suffix optimization and template optimization are complementary to each other: suffix optimization can effectively control the first few output tokens but cannot control the overall quality of the output, while template optimization provides guidance for the entire output but cannot effectively control the initial tokens, which significantly impact subsequent responses. Thus, they can be combined to improve the attack's effectiveness. We evaluate the effectiveness of TASO on benchmark datasets (including HarmBench and AdvBench) on 24 leading LLMs (including models from the Llama family, OpenAI, and DeepSeek). The results demonstrate that TASO can effectively jailbreak existing LLMs. We hope our work can inspire future studies in exploring this direction.
- Abstract(参考訳): 最近の多くの研究では、LLMはジェイルブレイク攻撃に弱いことが示されており、攻撃者はLLMの入力を摂動させ、有害な質問のアウトプットを生成することができる。
一般的に、既存のjailbreakテクニックは、有害な出力を生成するためにLLMを誘導するセマンティックテンプレートを最適化するか、特定のトークン("Sure"など)で応答を開始するための接尾辞を最適化する。
本研究では,テンプレートと接尾辞の両方を交互に最適化する新しいジェイルブレイク手法であるTASO(Template and Suffix Optimization)を紹介する。
接尾辞最適化は、最初の数個の出力トークンを効果的に制御できるが、出力全体の品質を制御できない一方、テンプレート最適化は、出力全体のガイダンスを提供するが、初期トークンを効果的に制御できないため、その後の応答に大きな影響を与える。
したがって、それらを組み合わせて攻撃の有効性を向上させることができる。
LLM(Llama family,OpenAI,DeepSeekの各モデルを含む)のベンチマークデータセット(HarmBench,AdvBenchを含む)に対するTASOの有効性を評価する。
その結果,TASOは既存のLLMを効果的にジェイルブレイクできることがわかった。
私たちの研究が将来の研究に刺激を与えて、この方向を探求できることを願っています。
関連論文リスト
- LARGO: Latent Adversarial Reflection through Gradient Optimization for Jailbreaking LLMs [13.432303050813864]
LARGOは,流水性脱獄プロンプトを発生させる新規な潜伏自己反射攻撃である。
AdvBenchやJailbreakBenchのようなベンチマークでは、AutoDANを含む主要なジェイルブレイクテクニックを44ポイント上回っている。
論文 参考訳(メタデータ) (2025-05-16T04:12:16Z) - Dagger Behind Smile: Fool LLMs with a Happy Ending Story [6.850563535528862]
ハッピーエンドアタック(Happy Ending Attack)は、シナリオテンプレートで悪意のあるリクエストをラップし、LDMをすぐにまたはフォローアップされた悪意のあるリクエストでジェイルブレイクさせる。
我々のHEAは、GPT-4o、Llama3-70b、Gemini-proを含む最先端のLLMのジェイルブレイクに成功し、平均して88.79%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-01-19T13:39:51Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - An Optimizable Suffix Is Worth A Thousand Templates: Efficient Black-box Jailbreaking without Affirmative Phrases via LLM as Optimizer [33.67942887761857]
最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク法であるELIPSEを提案する。
我々は,Jailbreakの目標を自然言語命令に変換するタスクプロンプトを用いて,悪意のあるクエリに対する逆接接尾辞を生成する。
ECLIPSE は3つのオープンソース LLM と GPT-3.5-Turbo に対して平均攻撃成功率 0.92 を達成し、GCG を2.4倍に上回っている。
論文 参考訳(メタデータ) (2024-08-21T03:35:24Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.418844515095035]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
不正確なトークン化は、LLMが入力を正確に理解するのを妨げている臨界点である。
我々は, LLMのトークン化に挑戦するために, 様々なオープンソースLLMの語彙をベースとして, $textbfADT (Adrial dataset for Tokenizer)$という逆データセットを構築した。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。