論文の概要: PUZZLED: Jailbreaking LLMs through Word-Based Puzzles
- arxiv url: http://arxiv.org/abs/2508.01306v1
- Date: Sat, 02 Aug 2025 10:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.811924
- Title: PUZZLED: Jailbreaking LLMs through Word-Based Puzzles
- Title(参考訳): PUZZLED: 単語ベースのパズルでLLMをジェイルブレイク
- Authors: Yelim Ahn, Jaejin Lee,
- Abstract要約: 本稿では,大規模言語モデルの推論機能を活用した新しいジェイルブレイク手法PUZLEDを紹介する。
我々は,LLMを認知的に要求する3種類のパズル型検索,アナグラム,クロスワードを設計する。
攻撃成功率は88.8%、特にGPT-4.1では96.5%、Claude 3.7 Sonnetでは92.3%である。
- 参考スコア(独自算出の注目度): 1.8538788075154355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly deployed across diverse domains, ensuring their safety has become a critical concern. In response, studies on jailbreak attacks have been actively growing. Existing approaches typically rely on iterative prompt engineering or semantic transformations of harmful instructions to evade detection. In this work, we introduce PUZZLED, a novel jailbreak method that leverages the LLM's reasoning capabilities. It masks keywords in a harmful instruction and presents them as word puzzles for the LLM to solve. We design three puzzle types-word search, anagram, and crossword-that are familiar to humans but cognitively demanding for LLMs. The model must solve the puzzle to uncover the masked words and then proceed to generate responses to the reconstructed harmful instruction. We evaluate PUZZLED on five state-of-the-art LLMs and observe a high average attack success rate (ASR) of 88.8%, specifically 96.5% on GPT-4.1 and 92.3% on Claude 3.7 Sonnet. PUZZLED is a simple yet powerful attack that transforms familiar puzzles into an effective jailbreak strategy by harnessing LLMs' reasoning capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)がさまざまなドメインにまたがって展開されるにつれて、安全性が重要な問題になっている。
これに対し、脱獄事件の研究は活発に進められている。
既存のアプローチは通常、検出を避けるために有害な命令の反復的なプロンプトエンジニアリングや意味変換に依存している。
本研究では,LLMの推論機能を活用した新しいジェイルブレイク手法PUZZLEDを紹介する。
有害な命令でキーワードを隠蔽し、LLMが解くためのワードパズルとして提示する。
我々は,LLMを認知的に要求する3種類のパズル型検索,アナグラム,クロスワードを設計する。
モデルは、マスクされた単語を解明し、再構成された有害な命令に対する応答を生成するためにパズルを解く必要がある。
我々は,5つの最先端LCM上でPUZLEDを評価し,高い攻撃成功率(ASR)が88.8%,特にGPT-4.1では96.5%,Claude 3.7 Sonnetでは92.3%であった。
PUZZLEDはシンプルだが強力な攻撃であり、LLMの推論能力を利用して、よく知られたパズルを効果的なジェイルブレイク戦略に変換する。
関連論文リスト
- JBFuzz: Jailbreaking LLMs Efficiently and Effectively Using Fuzzing [2.3822909465087228]
JBFuzzは、ソフトウェアのバグや脆弱性を検出するファジングの成功にインスパイアされている。
JBFuzzは、様々な有害・非倫理的な質問に対して全てのLSMを投獄し、平均的な攻撃成功率は99%である。
論文 参考訳(メタデータ) (2025-03-12T01:52:17Z) - Playing Language Game with LLMs Leads to Jailbreaking [18.63358696510664]
ミスマッチした言語ゲームとカスタム言語ゲームに基づく2つの新しいジェイルブレイク手法を導入する。
GPT-4oでは93%, GPT-4o-miniでは89%, Claude-3.5-Sonnetでは83%であった。
論文 参考訳(メタデータ) (2024-11-16T13:07:13Z) - Multi-round jailbreak attack on large language models [2.540971544359496]
私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。
この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。
実験の結果,ラマ2-7Bは94%の成功率を示した。
論文 参考訳(メタデータ) (2024-10-15T12:08:14Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - FlipAttack: Jailbreak LLMs via Flipping [63.871087708946476]
本稿では,ブラックボックスLSMに対するFlipAttackという単純なジェイルブレイク攻撃を提案する。
LLMは、左から右へテキストを理解する傾向があり、ノイズが左に付加されたときにテキストを理解するのに苦労している。
これらの知見に感化されて、我々はプロンプト自体に基づいて左側のノイズを合成し、これを4つのフリップモードに一般化することで有害なプロンプトを偽装することを提案する。
論文 参考訳(メタデータ) (2024-10-02T08:41:23Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Foot In The Door: Understanding Large Language Model Jailbreaking via
Cognitive Psychology [12.584928288798658]
本研究では,大規模言語モデル(LLM)の内在的意思決定論理に関する心理学的視点を構築する。
フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T02:27:55Z) - Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit
Clues [16.97760778679782]
本稿では, LLM の防御戦略を回避し, 悪意のある応答を得る, 間接的ジェイルブレイク攻撃手法である Puzzler を提案する。
実験の結果,Puzzler はクローズドソース LLM 上で96.6% のクエリ成功率を達成した。
最先端のjailbreak検出アプローチに対してテストすると、Puzzlerはベースラインよりも検出を回避するのに効果的であることを証明している。
論文 参考訳(メタデータ) (2024-02-14T11:11:51Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。