論文の概要: Multi-Turn Jailbreaking of Aligned LLMs via Lexical Anchor Tree Search
- arxiv url: http://arxiv.org/abs/2601.02670v1
- Date: Tue, 06 Jan 2026 02:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.780585
- Title: Multi-Turn Jailbreaking of Aligned LLMs via Lexical Anchor Tree Search
- Title(参考訳): 語彙アンカー木探索による配向LDMのマルチターンジェイルブレーク
- Authors: Devang Kulshreshtha, Hang Su, Chinmay Hegde, Haohan Wang,
- Abstract要約: 本稿では,Lexical Anchor Tree Search()を提案する。
AdvBench と HarmBench の評価は、LATS が最新の GPT、Claude、Llama モデルで 97-100% ASR を達成することを示した。
- 参考スコア(独自算出の注目度): 42.24704798164362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most jailbreak methods achieve high attack success rates (ASR) but require attacker LLMs to craft adversarial queries and/or demand high query budgets. These resource limitations make jailbreaking expensive, and the queries generated by attacker LLMs often consist of non-interpretable random prefixes. This paper introduces Lexical Anchor Tree Search (), addressing these limitations through an attacker-LLM-free method that operates purely via lexical anchor injection. LATS reformulates jailbreaking as a breadth-first tree search over multi-turn dialogues, where each node incrementally injects missing content words from the attack goal into benign prompts. Evaluations on AdvBench and HarmBench demonstrate that LATS achieves 97-100% ASR on latest GPT, Claude, and Llama models with an average of only ~6.4 queries, compared to 20+ queries required by other methods. These results highlight conversational structure as a potent and under-protected attack surface, while demonstrating superior query efficiency in an era where high ASR is readily achievable. Our code will be released to support reproducibility.
- Abstract(参考訳): ほとんどのjailbreakメソッドは高いアタック成功率(ASR)を達成するが、攻撃者は敵のクエリを作成したり、高いクエリ予算を要求する必要がある。
これらのリソース制限により、ジェイルブレイクは高価になり、攻撃的LLMによって生成されるクエリは、しばしば非解釈不能なランダムプレフィックスで構成されている。
本稿では,Lexical Anchor Tree Search()を提案する。
LATSは、jailbreakingをマルチターンダイアログ上で広義のツリー検索として再定義し、各ノードが攻撃目標から欠落したコンテンツワードをベニグインプロンプトにインジェクションする。
AdvBench と HarmBench の評価は、LATS が最新の GPT、Claude、Llama モデルで 97-100% ASR を達成することを示した。
これらの結果は、高いASRが容易に達成可能な時代には、より優れたクエリ効率を示しながら、強力で保護されていない攻撃面としての会話構造を強調している。
私たちのコードは再現性をサポートするためにリリースされます。
関連論文リスト
- Adjacent Words, Divergent Intents: Jailbreaking Large Language Models via Task Concurrency [22.04568330005493]
既存のjailbreak攻撃は主にシーケンシャルロジックに従っており、大きな言語モデル(LLM)は各タスクをひとつずつ理解し、答える。
私たちは、$textttJAIL-CON$という、タスク$underlinetextCON$currencyを介してLLMを壊す反復攻撃フレームワークを紹介します。
ガードレールを防御として適用した場合、以前の攻撃で生成されたシーケンシャルな回答と比較して、@textttJAIL-CON$の同時回答はよりステルス性が高い。
論文 参考訳(メタデータ) (2025-10-24T06:39:08Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Dagger Behind Smile: Fool LLMs with a Happy Ending Story [6.850563535528862]
ハッピーエンドアタック(Happy Ending Attack)は、シナリオテンプレートで悪意のあるリクエストをラップし、LDMをすぐにまたはフォローアップされた悪意のあるリクエストでジェイルブレイクさせる。
我々のHEAは、GPT-4o、Llama3-70b、Gemini-proを含む最先端のLLMのジェイルブレイクに成功し、平均して88.79%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-01-19T13:39:51Z) - SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains [0.0]
本稿では,大規模言語モデル(LLM)の脆弱性を利用した新しいジェイルブレイク攻撃であるSequentialBreakを紹介する。
問題バンク,ダイアログ補完,ゲーム環境などの事例に限らず,有害なプロンプトをLCMを騙して有害な応答を発生させる良質なプロンプトに埋め込む,いくつかのシナリオについて論じる。
大規模な実験では、SequentialBreakは単一のクエリしか使用せず、攻撃成功率を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-10T11:08:28Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Towards Universal and Black-Box Query-Response Only Attack on LLMs with QROA [2.4578723416255754]
悪意ある命令に付加された相手の接尾辞を識別するブラックボックスジェイルブレイク手法であるQROAを紹介する。
既存のサフィックスベースのjailbreakアプローチとは異なり、QROAはモデルのロジットや他の内部情報へのアクセスを必要としない。
また,QROA-UNVは,個々のモデルに対する普遍的対角接尾辞を識別する拡張である。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses [37.56003689042975]
多数のデモ(最大数百)は、その長いコンテキスト能力を活用することで、最先端のLDMをジェイルブレイクすることができる。
本稿では,[/INST]のような特別なシステムトークンの注入や,収集したデモプールからのデモレベルのランダム検索などの改良手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T12:59:17Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。