論文の概要: The Echo Chamber Multi-Turn LLM Jailbreak
- arxiv url: http://arxiv.org/abs/2601.05742v1
- Date: Fri, 09 Jan 2026 11:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.960949
- Title: The Echo Chamber Multi-Turn LLM Jailbreak
- Title(参考訳): Echo Chamber Multi-Turn LLM Jailbreak
- Authors: Ahmad Alobaid, Martí Jordà Roca, Carlos Castillo, Joan Vendrell,
- Abstract要約: 本研究では,段階的エスカレーション法を用いた新しいマルチターン攻撃であるEcho Chamberを紹介する。
我々は、この攻撃を詳細に記述し、他のマルチターン攻撃と比較し、その性能を複数の最先端モデルに対して示す。
- 参考スコア(独自算出の注目度): 2.3674678839202907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of Large Language Models (LLMs) has led to a new generation of powerful chatbots that can be developed at relatively low cost. As companies deploy these tools, security challenges need to be addressed to prevent financial loss and reputational damage. A key security challenge is jailbreaking, the malicious manipulation of prompts and inputs to bypass a chatbot's safety guardrails. Multi-turn attacks are a relatively new form of jailbreaking involving a carefully crafted chain of interactions with a chatbot. We introduce Echo Chamber, a new multi-turn attack using a gradual escalation method. We describe this attack in detail, compare it to other multi-turn attacks, and demonstrate its performance against multiple state-of-the-art models through extensive evaluation.
- Abstract(参考訳): LLM(Large Language Models)が利用可能になったことで、新しい世代の強力なチャットボットが比較的低コストで開発できるようになった。
企業がこれらのツールをデプロイする際には、財務的損失や評判の悪影響を防ぐためにセキュリティ上の課題に取り組む必要がある。
重要なセキュリティ課題はジェイルブレイクであり、チャットボットの安全ガードレールをバイパスするプロンプトと入力の悪意のある操作である。
マルチターン攻撃は比較的新しいタイプのジェイルブレイクであり、チャットボットとのインタラクションを慎重に構築する。
本研究では,段階的エスカレーション法を用いた新しいマルチターン攻撃であるEcho Chamberを紹介する。
本稿では、この攻撃を他のマルチターン攻撃と比較し、広範囲な評価により、複数の最先端モデルに対してその性能を実証する。
関連論文リスト
- MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs [14.530593083777502]
低コストでマルチエージェントのジェイルブレイクフレームワークであるMetaCipherを提案する。
わずか10クエリで、MetaCipherは最近の悪意のあるプロンプトベンチマークで最先端の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-06-27T18:15:56Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation [12.376058015074186]
本稿では,これらの攻撃の成功率を高めるために,対話履歴を活用する新しいジェイルブレイクパラダイムであるダイアログインジェクションアタック(DIA)を導入する。
DIAはブラックボックスで動作し、チャットAPIへのアクセスやLLMのチャットテンプレートの知識のみを必要とする。
Llama-3.1 や GPT-4o など最近の LLM では,DIA が攻撃成功率を達成している。
論文 参考訳(メタデータ) (2025-03-11T09:00:45Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [59.300698230887114]
大規模言語モデル(LLM)は、有害な応答を誘発するために敵のプロンプトが設計されたジェイルブレイク攻撃に対して脆弱であることが示されている。
安全制御理論に基づく安全ステアリングフレームワークを提案し,マルチターン対話における不変安全性を保証する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack [5.912639903214644]
我々は、Crescendoと呼ばれる新しいジェイルブレイク攻撃を導入する。
Crescendoは単純なマルチターンジェイルブレイクで、一見見栄えのよい方法でモデルと対話する。
我々はChatGPT, Gemini Pro, Gemini-Ultra, LlaMA-2 70b, LlaMA-3 70b Chat, Anthropic Chatなど,様々な公共システム上でのCrescendoの評価を行った。
論文 参考訳(メタデータ) (2024-04-02T10:45:49Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。