論文の概要: Let the Bees Find the Weak Spots: A Path Planning Perspective on Multi-Turn Jailbreak Attacks against LLMs
- arxiv url: http://arxiv.org/abs/2511.03271v1
- Date: Wed, 05 Nov 2025 08:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.382372
- Title: Let the Bees Find the Weak Spots: A Path Planning Perspective on Multi-Turn Jailbreak Attacks against LLMs
- Title(参考訳): ミツバチが弱所を見つける: LLMに対するマルチターンジェイルブレイク攻撃の経路計画的視点
- Authors: Yize Liu, Yunyun Hou, Aina Sui,
- Abstract要約: 大規模言語モデル(LLM)は様々なアプリケーションに広くデプロイされているが、その潜在的なセキュリティと倫理的リスクは懸念を高めている。
本稿では,動的重み付きグラフトポロジに基づく理論的モデルを導入し,経路計画問題としてマルチターン攻撃過程を抽象化する。
マルチターンジェイルブレイクのための強化された人工ビーコロニーアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been widely deployed across various applications, yet their potential security and ethical risks have raised increasing concerns. Existing research employs red teaming evaluations, utilizing multi-turn jailbreaks to identify potential vulnerabilities in LLMs. However, these approaches often lack exploration of successful dialogue trajectories within the attack space, and they tend to overlook the considerable overhead associated with the attack process. To address these limitations, this paper first introduces a theoretical model based on dynamically weighted graph topology, abstracting the multi-turn attack process as a path planning problem. Based on this framework, we propose ABC, an enhanced Artificial Bee Colony algorithm for multi-turn jailbreaks, featuring a collaborative search mechanism with employed, onlooker, and scout bees. This algorithm significantly improves the efficiency of optimal attack path search while substantially reducing the average number of queries required. Empirical evaluations on three open-source and two proprietary language models demonstrate the effectiveness of our approach, achieving attack success rates above 90\% across the board, with a peak of 98\% on GPT-3.5-Turbo, and outperforming existing baselines. Furthermore, it achieves comparable success with only 26 queries on average, significantly reducing red teaming overhead and highlighting its superior efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なアプリケーションに広くデプロイされているが、その潜在的なセキュリティと倫理的リスクは懸念を高めている。
既存の研究では、LLMの潜在的な脆弱性を特定するために、マルチターンジェイルブレイクを利用して、レッドチームの評価を採用している。
しかしながら、これらのアプローチは攻撃空間内で成功した対話軌道の探索を欠くことが多く、攻撃プロセスに関連するかなりのオーバーヘッドを見逃す傾向にある。
これらの制約に対処するために、まず動的重み付けグラフトポロジーに基づく理論的モデルを導入し、経路計画問題としてマルチターン攻撃プロセスを抽象化する。
この枠組みに基づき、ABCはマルチターンジェイルブレイクのための強化された人工ビーコロニーアルゴリズムを提案し、雇用者、見物人、スカウト蜂との協調的な検索機構を備えている。
このアルゴリズムは最適な攻撃経路探索の効率を大幅に改善し、必要なクエリの平均数を著しく削減する。
3つのオープンソースおよび2つのプロプライエタリな言語モデルに対する実証的な評価は、我々のアプローチの有効性を示し、攻撃の成功率を90%以上達成し、GPT-3.5-Turboのピークは98%、既存のベースラインを上回っている。
さらに、平均26クエリで同等の成功を達成し、レッドチームのオーバヘッドを大幅に削減し、その優れた効率を強調している。
関連論文リスト
- Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks [63.803415430308114]
現在の大規模言語モデルは、マルチターンインタラクション設定における敵攻撃に対して脆弱である。
本研究では,木探索と統合したオンライン強化学習フレームワークであるDialTree-RPOを提案する。
提案手法は,従来の最先端手法と比較して,10のターゲットモデルに対して25.9%以上のASRを実現している。
論文 参考訳(メタデータ) (2025-10-02T17:57:05Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Towards Action Hijacking of Large Language Model-based Agent [23.13653350521422]
LLMベースのアプリケーションのアクションプランを操作するための新しい攻撃であるAI$mathbf2$を紹介する。
まず、被害者のアプリケーションからアクション認識の知識を収集する。
このような知識に基づいて、攻撃者は誤解を招く入力を生成することができ、LLMを誤解して有害なアクションプランを生成することができる。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。