Fugu-MT 論文翻訳(概要): Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms

論文の概要: Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms

arxiv url: http://arxiv.org/abs/2503.24191v1
Date: Mon, 31 Mar 2025 15:08:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:57.46006
Title: Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms
Title（参考訳）: 攻撃面としての出力制約:LLMの安全機構をバイパスする構造生成の爆発
Authors: Shuoming Zhang, Jiacheng Zhao, Ruiyuan Xu, Xiaobing Feng, Huimin Cui,
Abstract要約: 我々は、従来のデータプレーンの脆弱性に対して、重要な制御プレーン攻撃面を明らかにする。本稿では、構造的出力制約を武器として安全機構をバイパスする新しいジェイルブレイククラスであるConstrained Decoding Attackを紹介する。本研究は, 現状のLLMアーキテクチャにおける重要なセキュリティ盲点を明らかにし, 制御面脆弱性に対処するため, LLM安全性のパラダイムシフトを促すものである。
参考スコア（独自算出の注目度）: 0.9091225937132784
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Content Warning: This paper may contain unsafe or harmful content generated by LLMs that may be offensive to readers. Large Language Models (LLMs) are extensively used as tooling platforms through structured output APIs to ensure syntax compliance so that robust integration with existing softwares like agent systems, could be achieved. However, the feature enabling functionality of grammar-guided structured output presents significant security vulnerabilities. In this work, we reveal a critical control-plane attack surface orthogonal to traditional data-plane vulnerabilities. We introduce Constrained Decoding Attack (CDA), a novel jailbreak class that weaponizes structured output constraints to bypass safety mechanisms. Unlike prior attacks focused on input prompts, CDA operates by embedding malicious intent in schema-level grammar rules (control-plane) while maintaining benign surface prompts (data-plane). We instantiate this with a proof-of-concept Chain Enum Attack, achieves 96.2% attack success rates across proprietary and open-weight LLMs on five safety benchmarks with a single query, including GPT-4o and Gemini-2.0-flash. Our findings identify a critical security blind spot in current LLM architectures and urge a paradigm shift in LLM safety to address control-plane vulnerabilities, as current mechanisms focused solely on data-plane threats leave critical systems exposed.
Abstract（参考訳）: コンテンツ警告: 本論文は、読者に不快な LLM によって生成される、安全でない、または有害なコンテンツを含む可能性がある。大規模言語モデル(LLM)は、構造化出力APIを通じて、エージェントシステムのような既存のソフトウェアとの堅牢な統合を実現するための構文コンプライアンスを保証するために、ツーリングプラットフォームとして広く使用されている。しかし、文法誘導型構造化出力の機能を実現すると、重大なセキュリティ上の脆弱性が生じる。本研究では,従来のデータプレーンの脆弱性に直交する重要な制御プレーン攻撃面を明らかにする。本稿では、構造的出力制約を武器として安全機構をバイパスする新しいジェイルブレイククラスであるConstrained Decoding Attack (CDA)を紹介する。入力プロンプトに焦点を当てた以前の攻撃とは異なり、CDAは、良質な表面プロンプト(データプレーン)を維持しながら、悪意のある意図をスキーマレベルの文法ルール(コントロールプレーン)に埋め込むことで動作する。 GPT-4oやGemini-2.0-flashを含む5つの安全ベンチマークで、プロプライエタリおよびオープンウェイトLLMに対する96.2%の攻撃成功率を達成する。我々の研究は、現在のLLMアーキテクチャにおける重要なセキュリティの盲点を特定し、制御プレーンの脆弱性に対処するため、LLMの安全性のパラダイムシフトを促す。

関連論文リスト

GraphAttack: Exploiting Representational Blindspots in LLM Safety Mechanisms [1.48325651280105]
本稿では,jailbreakプロンプトを生成する新しいグラフベースのアプローチを提案する。我々は、異なる変換を示すエッジを持つグラフ構造において、悪意のあるプロンプトをノードとして表現する。目的を実現するコードを生成するために LLM を指示することで,特に効果的なエクスプロイトベクトルを実証する。
論文参考訳（メタデータ） (2025-04-17T16:09:12Z)
LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文参考訳（メタデータ） (2025-04-02T09:21:26Z)
Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文参考訳（メタデータ） (2025-04-01T05:58:14Z)
Exploiting Prefix-Tree in Structured Output Interfaces for Enhancing Jailbreak Attacking [34.479355499938116]
大規模言語モデル(LLM)は、重要なアプリケーションをもたらすだけでなく、深刻なセキュリティ脅威も導入している。我々はAttackPrefixTree (APT)と呼ばれるブラックボックス攻撃フレームワークを導入する。 APTは構造化された出力インタフェースを利用して攻撃パターンを動的に構築する。ベンチマークデータセットの実験は、このアプローチが既存の手法よりも高い攻撃成功率を達成することを示している。
論文参考訳（メタデータ） (2025-02-19T08:29:36Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
LProtector: An LLM-driven Vulnerability Detection System [3.175156999656286]
LProtectorは、大規模言語モデル(LLM) GPT-4oとRetrieval-Augmented Generation(RAG)によって駆動されるC/C++の自動脆弱性検出システムである。
論文参考訳（メタデータ） (2024-11-10T15:21:30Z)
Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文参考訳（メタデータ） (2024-10-05T15:10:01Z)
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。 LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文参考訳（メタデータ） (2024-05-30T14:40:35Z)
Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文参考訳（メタデータ） (2024-04-05T20:31:45Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。