論文の概要: ArtPerception: ASCII Art-based Jailbreak on LLMs with Recognition Pre-test
- arxiv url: http://arxiv.org/abs/2510.10281v1
- Date: Sat, 11 Oct 2025 16:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.874119
- Title: ArtPerception: ASCII Art-based Jailbreak on LLMs with Recognition Pre-test
- Title(参考訳): ArtPerception: ASCII Art-based Jailbreak on LLMs with Recognition Pre-test
- Authors: Guan-Yan Yang, Tzu-Yu Cheng, Ya-Wen Teng, Farn Wanga, Kuo-Hui Yeh,
- Abstract要約: ArtPerceptionは、ASCIIアートを戦略的に活用し、最先端(SOTA)LLMのセキュリティ対策を回避した、新しいブラックボックスジェイルブレイクフレームワークである。
フェーズ1は、ASCIIアート認識のための最適なパラメータを経験的に決定するために、1回、モデル固有の事前試験を行う。
フェーズ2は、これらの洞察を活用して、非常に効率的でワンショットの悪意のあるジェイルブレイク攻撃を起動する。
- 参考スコア(独自算出の注目度): 1.960444962205579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Large Language Models (LLMs) into computer applications has introduced transformative capabilities but also significant security challenges. Existing safety alignments, which primarily focus on semantic interpretation, leave LLMs vulnerable to attacks that use non-standard data representations. This paper introduces ArtPerception, a novel black-box jailbreak framework that strategically leverages ASCII art to bypass the security measures of state-of-the-art (SOTA) LLMs. Unlike prior methods that rely on iterative, brute-force attacks, ArtPerception introduces a systematic, two-phase methodology. Phase 1 conducts a one-time, model-specific pre-test to empirically determine the optimal parameters for ASCII art recognition. Phase 2 leverages these insights to launch a highly efficient, one-shot malicious jailbreak attack. We propose a Modified Levenshtein Distance (MLD) metric for a more nuanced evaluation of an LLM's recognition capability. Through comprehensive experiments on four SOTA open-source LLMs, we demonstrate superior jailbreak performance. We further validate our framework's real-world relevance by showing its successful transferability to leading commercial models, including GPT-4o, Claude Sonnet 3.7, and DeepSeek-V3, and by conducting a rigorous effectiveness analysis against potential defenses such as LLaMA Guard and Azure's content filters. Our findings underscore that true LLM security requires defending against a multi-modal space of interpretations, even within text-only inputs, and highlight the effectiveness of strategic, reconnaissance-based attacks. Content Warning: This paper includes potentially harmful and offensive model outputs.
- Abstract(参考訳): コンピュータアプリケーションへのLLM(Large Language Models)の統合は、トランスフォーメーション機能を導入しただけでなく、重大なセキュリティ上の課題も導入した。
既存の安全アライメントは、主に意味論的解釈に焦点を当てており、LLMは非標準データ表現を使用する攻撃に対して脆弱である。
本稿では,ASCIIアートを戦略的に活用し,SOTA(State-of-the-art) LLMのセキュリティ対策を回避した,新しいブラックボックスジェイルブレイクフレームワークであるArtPerceptionを紹介する。
反復的なブルートフォース攻撃に依存する従来の方法とは異なり、ArtPerceptionはシステマティックな2フェーズの方法論を導入している。
フェーズ1は、ASCIIアート認識のための最適なパラメータを経験的に決定するために、1回、モデル固有の事前試験を行う。
フェーズ2は、これらの洞察を活用して、非常に効率的でワンショットの悪意のあるジェイルブレイク攻撃を起動する。
本稿では,LLMの認識能力をより微妙に評価するために,MLD(Modified Levenshtein Distance)メトリクスを提案する。
4つのSOTAオープンソースLLMの総合的な実験を通じて、優れたジェイルブレイク性能を示す。
我々は、GPT-4o、Claude Sonnet 3.7、DeepSeek-V3といった主要な商用モデルへの転送性を実証し、LLaMA GuardやAzureのコンテンツフィルタのような潜在的な防御に対する厳密な効果分析を行うことで、我々のフレームワークの現実的関連性をさらに検証する。
本研究は, テキストのみの入力においても, マルチモーダルな解釈空間に対する防御が必要であり, 戦略的, 偵察的攻撃の有効性を強調した。
コンテンツ警告: この論文には潜在的に有害で攻撃的なモデルアウトプットが含まれている。
関連論文リスト
- MEF: A Capability-Aware Multi-Encryption Framework for Evaluating Vulnerabilities in Black-Box Large Language Models [5.645247459469767]
ブラックボックスLLMの脆弱性を評価するための機能対応マルチ暗号化フレームワーク(MEF)を提案する。
限定的な理解能力を持つモデルに対して、MEFは、階層化された意味突然変異と暗号化技術を統合するFu+En1戦略を採用している。
強力な理解能力を持つモデルでは、MEFはより複雑なFu+En1+En2戦略を使用し、LLMの応答に追加のデュアルエンド暗号化技術を適用する。
論文 参考訳(メタデータ) (2025-05-29T12:50:57Z) - Prefill-level Jailbreak: A Black-Box Risk Analysis of Large Language Models [6.049325292667881]
本報告では,プリフィルレベルジェイルブレイク攻撃のブラックボックスセキュリティ解析について述べる。
実験の結果,いくつかのモデルでは適応手法が99%を超え,プレフィルレベル攻撃が高い成功率を達成することが示された。
その結果,プロンプトとプリフィルの操作関係に着目した検出法がより効果的であることが判明した。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs [13.008917830855832]
ASCIIアートベースの新しいジェイルブレイク攻撃を提案し、ViTC(Vision-in-Text Challenge)ベンチマークを導入する。
5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。
我々は, ASCII アート認識における LLM の性能の低下を利用して, 安全対策を回避し, 望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。
論文 参考訳(メタデータ) (2024-02-19T00:43:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。