論文の概要: Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search
- arxiv url: http://arxiv.org/abs/2602.22983v1
- Date: Thu, 26 Feb 2026 13:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.701414
- Title: Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search
- Title(参考訳): バイオインスパイアされた検索による中国の古典的ジェイルブレイクのプロンプト最適化
- Authors: Xun Huang, Simeng Qin, Xiaoshuang Jia, Ranjie Duan, Huanqian Yan, Zhitao Zeng, Fei Yang, Yang Liu, Xiaojun Jia,
- Abstract要約: 本稿では,ジェイルブレイク攻撃における古典中国語の役割について検討する。
古典中国語の敵対的プロンプトの自動生成のための枠組みであるCC-BOSを提案する。
常に最先端のjailbreak攻撃方法より優れています。
- 参考スコア(独自算出の注目度): 27.631357512599212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are increasingly used, their security risks have drawn increasing attention. Existing research reveals that LLMs are highly susceptible to jailbreak attacks, with effectiveness varying across language contexts. This paper investigates the role of classical Chinese in jailbreak attacks. Owing to its conciseness and obscurity, classical Chinese can partially bypass existing safety constraints, exposing notable vulnerabilities in LLMs. Based on this observation, this paper proposes a framework, CC-BOS, for the automatic generation of classical Chinese adversarial prompts based on multi-dimensional fruit fly optimization, facilitating efficient and automated jailbreak attacks in black-box settings. Prompts are encoded into eight policy dimensions-covering role, behavior, mechanism, metaphor, expression, knowledge, trigger pattern and context; and iteratively refined via smell search, visual search, and cauchy mutation. This design enables efficient exploration of the search space, thereby enhancing the effectiveness of black-box jailbreak attacks. To enhance readability and evaluation accuracy, we further design a classical Chinese to English translation module. Extensive experiments demonstrate that effectiveness of the proposed CC-BOS, consistently outperforming state-of-the-art jailbreak attack methods.
- Abstract(参考訳): LLM(Large Language Models)がますます普及するにつれて、そのセキュリティリスクに注目が集まっている。
既存の研究によると、LLMはジェイルブレイク攻撃に強い影響を受けており、その効果は言語コンテキストによって様々である。
本稿では,ジェイルブレイク攻撃における古典中国語の役割について検討する。
その簡潔さと不明瞭さのために、古典中国語は既存の安全上の制約を部分的に回避することができ、LSMの顕著な脆弱性を明らかにしている。
そこで本研究では,多次元フルーツフライ最適化に基づく古典中国語の逆数プロンプトの自動生成のためのフレームワークCC-BOSを提案し,ブラックボックス設定における効率的な自動ジェイルブレイク攻撃を容易にする。
プロンプトは、役割、行動、メカニズム、メタファー、表現、知識、トリガーパターン、コンテキストを含む8つのポリシーの次元にエンコードされ、嗅覚探索、視覚探索、奇形突然変異によって反復的に洗練される。
この設計により、探索空間の効率的な探索が可能となり、ブラックボックス・ジェイルブレイク攻撃の有効性が向上する。
可読性と評価精度を向上させるため、中国語から英語への翻訳モジュールをさらに設計する。
大規模な実験では、提案されたCC-BOSの有効性が、常に最先端のジェイルブレイク攻撃法より優れていることが示されている。
関連論文リスト
- JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.06388944779541]
ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。
本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。
本手法は攻撃効率において最先端のベースラインよりも優れている。
論文 参考訳(メタデータ) (2025-02-17T02:49:26Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs [3.7919737164481284]
本稿では,Jailbreakプロンプトを効率的に生成できる新しいフレームワークであるGenerative Adversarial Suffix Prompter(GASP)を紹介する。
我々は,GASPが自然な敵のプロンプトを生成でき,ベースラインよりもジェイルブレイクの成功を著しく改善し,トレーニング時間を短縮し,推論速度を加速できることを示す。
論文 参考訳(メタデータ) (2024-11-21T14:00:01Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。