論文の概要: Multi-Turn Jailbreaking of Aligned LLMs via Lexical Anchor Tree Search
- arxiv url: http://arxiv.org/abs/2601.02670v1
- Date: Tue, 06 Jan 2026 02:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.780585
- Title: Multi-Turn Jailbreaking of Aligned LLMs via Lexical Anchor Tree Search
- Title(参考訳): 語彙アンカー木探索による配向LDMのマルチターンジェイルブレーク
- Authors: Devang Kulshreshtha, Hang Su, Chinmay Hegde, Haohan Wang,
- Abstract要約: 本稿では,Lexical Anchor Tree Search()を提案する。
AdvBench と HarmBench の評価は、LATS が最新の GPT、Claude、Llama モデルで 97-100% ASR を達成することを示した。
- 参考スコア(独自算出の注目度): 42.24704798164362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most jailbreak methods achieve high attack success rates (ASR) but require attacker LLMs to craft adversarial queries and/or demand high query budgets. These resource limitations make jailbreaking expensive, and the queries generated by attacker LLMs often consist of non-interpretable random prefixes. This paper introduces Lexical Anchor Tree Search (), addressing these limitations through an attacker-LLM-free method that operates purely via lexical anchor injection. LATS reformulates jailbreaking as a breadth-first tree search over multi-turn dialogues, where each node incrementally injects missing content words from the attack goal into benign prompts. Evaluations on AdvBench and HarmBench demonstrate that LATS achieves 97-100% ASR on latest GPT, Claude, and Llama models with an average of only ~6.4 queries, compared to 20+ queries required by other methods. These results highlight conversational structure as a potent and under-protected attack surface, while demonstrating superior query efficiency in an era where high ASR is readily achievable. Our code will be released to support reproducibility.
- Abstract(参考訳): ほとんどのjailbreakメソッドは高いアタック成功率(ASR)を達成するが、攻撃者は敵のクエリを作成したり、高いクエリ予算を要求する必要がある。
これらのリソース制限により、ジェイルブレイクは高価になり、攻撃的LLMによって生成されるクエリは、しばしば非解釈不能なランダムプレフィックスで構成されている。
本稿では,Lexical Anchor Tree Search()を提案する。
LATSは、jailbreakingをマルチターンダイアログ上で広義のツリー検索として再定義し、各ノードが攻撃目標から欠落したコンテンツワードをベニグインプロンプトにインジェクションする。
AdvBench と HarmBench の評価は、LATS が最新の GPT、Claude、Llama モデルで 97-100% ASR を達成することを示した。
これらの結果は、高いASRが容易に達成可能な時代には、より優れたクエリ効率を示しながら、強力で保護されていない攻撃面としての会話構造を強調している。
私たちのコードは再現性をサポートするためにリリースされます。
関連論文リスト
- Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency [22.04568330005493]
既存のjailbreak攻撃は主にシーケンシャルロジックに従っており、大きな言語モデル(LLM)は各タスクをひとつずつ理解し、答える。
私たちは、$textttJAIL-CON$という、タスク$underlinetextCON$currencyを介してLLMを壊す反復攻撃フレームワークを紹介します。
ガードレールを防御として適用した場合、以前の攻撃で生成されたシーケンシャルな回答と比較して、@textttJAIL-CON$の同時回答はよりステルス性が高い。
論文 参考訳(メタデータ) (2025-10-24T06:39:08Z) - Dagger Behind Smile: Fool LLMs with a Happy Ending Story [6.850563535528862]
ハッピーエンドアタック(Happy Ending Attack)は、シナリオテンプレートで悪意のあるリクエストをラップし、LDMをすぐにまたはフォローアップされた悪意のあるリクエストでジェイルブレイクさせる。
我々のHEAは、GPT-4o、Llama3-70b、Gemini-proを含む最先端のLLMのジェイルブレイクに成功し、平均して88.79%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-01-19T13:39:51Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Towards Universal and Black-Box Query-Response Only Attack on LLMs with QROA [2.4578723416255754]
悪意ある命令に付加された相手の接尾辞を識別するブラックボックスジェイルブレイク手法であるQROAを紹介する。
既存のサフィックスベースのjailbreakアプローチとは異なり、QROAはモデルのロジットや他の内部情報へのアクセスを必要としない。
また,QROA-UNVは,個々のモデルに対する普遍的対角接尾辞を識別する拡張である。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。