論文の概要: Imperceptible Jailbreaking against Large Language Models
- arxiv url: http://arxiv.org/abs/2510.05025v1
- Date: Mon, 06 Oct 2025 17:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.002291
- Title: Imperceptible Jailbreaking against Large Language Models
- Title(参考訳): 大規模言語モデルに対する非受容的ジェイルブレイク
- Authors: Kuofeng Gao, Yiming Li, Chao Du, Xin Wang, Xingjun Ma, Shu-Tao Xia, Tianyu Pang,
- Abstract要約: 変分セレクタと呼ばれるUnicode文字のクラスを利用する非受容ジェイルブレイクを導入する。
目に見えない変分セレクタを悪意のある質問に追加することで、ジェイルブレイクプロンプトは画面上の元の悪意のある質問と視覚的に同じように見える。
本研究では,このような逆接尾辞を生成し,有害な応答を誘導する探索パイプラインを提案する。
- 参考スコア(独自算出の注目度): 107.76039200173528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreaking attacks on the vision modality typically rely on imperceptible adversarial perturbations, whereas attacks on the textual modality are generally assumed to require visible modifications (e.g., non-semantic suffixes). In this paper, we introduce imperceptible jailbreaks that exploit a class of Unicode characters called variation selectors. By appending invisible variation selectors to malicious questions, the jailbreak prompts appear visually identical to original malicious questions on screen, while their tokenization is "secretly" altered. We propose a chain-of-search pipeline to generate such adversarial suffixes to induce harmful responses. Our experiments show that our imperceptible jailbreaks achieve high attack success rates against four aligned LLMs and generalize to prompt injection attacks, all without producing any visible modifications in the written prompt. Our code is available at https://github.com/sail-sg/imperceptible-jailbreaks.
- Abstract(参考訳): 視覚的モダリティに対するジェイルブレーキング攻撃は、典型的には知覚できない逆境の摂動に依存するが、テキスト的モダリティに対する攻撃は一般的に、可視的な修正(例えば、非意味的な接尾辞)を必要とすると仮定される。
本稿では,変分セレクタと呼ばれるUnicode文字のクラスを利用した非受容ジェイルブレイクを提案する。
悪意のある質問に目に見えない変分セレクタを追加することで、ジェイルブレイクプロンプトは画面上の元の悪意のある質問と視覚的に同一に見えるが、トークン化は「秘密に」変更されている。
本研究では,このような逆接尾辞を生成し,有害な応答を誘導する探索パイプラインを提案する。
以上の結果から,我々の非受容性ジェイルブレイクは4つのLDMに対して高い攻撃成功率を達成し,インジェクション攻撃の促進を図っている。
私たちのコードはhttps://github.com/sail-sg/imperceptible-jailbreaks.comで利用可能です。
関連論文リスト
- NLP Methods for Detecting Novel LLM Jailbreaks and Keyword Analysis with BERT [3.2654923574107357]
大きな言語モデル(LLM)は、悪意のあるユーザが入力テキストの操作を通じて望ましくない応答を要求できるような、さまざまな脆弱性に悩まされる。
いわゆるジェイルブレイクプロンプトは、LLMを騙して安全ガードレールの設置を回避し、開発者のポリシーに受け入れられる応答を維持するように設計されている。
本研究では,異なる機械学習モデルを用いて,jailbreakプロンプトを真の用途と区別する能力について分析する。
論文 参考訳(メタデータ) (2025-10-02T03:55:29Z) - Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is [8.214994509812724]
大規模言語モデル(LLM)とテキスト・トゥ・イメージ(T2I)システムは、ジェイルブレイクとして知られるプロンプトベースの攻撃に対して脆弱である。
本稿では,非専門家が安全メカニズムを確実に回避する方法について,システムスタイルの考察を行う。
本稿では,テキスト出力モデルとT2Iモデルの両方にまたがる,即時レベルのジェイルブレイク戦略の統一分類法を提案する。
論文 参考訳(メタデータ) (2025-07-29T13:55:23Z) - SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains [0.0]
本稿では,大規模言語モデル(LLM)の脆弱性を利用した新しいジェイルブレイク攻撃であるSequentialBreakを紹介する。
問題バンク,ダイアログ補完,ゲーム環境などの事例に限らず,有害なプロンプトをLCMを騙して有害な応答を発生させる良質なプロンプトに埋め込む,いくつかのシナリオについて論じる。
大規模な実験では、SequentialBreakは単一のクエリしか使用せず、攻撃成功率を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-10T11:08:28Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。