論文の概要: Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints
- arxiv url: http://arxiv.org/abs/2603.07590v1
- Date: Sun, 08 Mar 2026 11:22:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.893528
- Title: Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints
- Title(参考訳): レゴビルダーとしてのモデル - セマンティック・ブループリントによる良きブロックからマライスを組み立てる
- Authors: Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang,
- Abstract要約: SructAttackは、ブラックボックス設定下でシンプルだが効果的な単一クエリのジェイルブレイクフレームワークである。
StructAttackはLVLMの推論を利用してこれらのスロットをコヒーレントな有害な意味論に組み立てることを示す。
複数のモデルとベンチマーク実験により,提案したStructAttackの有効性が示された。
- 参考スコア(独自算出の注目度): 9.698319722490043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the rapid progress of Large Vision-Language Models (LVLMs), the integration of visual modalities introduces new safety vulnerabilities that adversaries can exploit to elicit biased or malicious outputs. In this paper, we demonstrate an underexplored vulnerability via semantic slot filling, where LVLMs complete missing slot values with unsafe content even when the slot types are deliberately crafted to appear benign. Building on this finding, we propose StructAttack, a simple yet effective single-query jailbreak framework under black-box settings. StructAttack decomposes a harmful query into a central topic and a set of benign-looking slot types, then embeds them as structured visual prompts (e.g., mind maps, tables, or sunburst diagrams) with small random perturbations. Paired with a completion-guided instruction, LVLMs automatically recompose the concealed semantics and generate unsafe outputs without triggering safety mechanisms. Although each slot appears benign in isolation (local benignness), StructAttack exploits LVLMs' reasoning to assemble these slots into coherent harmful semantics. Extensive experiments on multiple models and benchmarks show the efficacy of our proposed StructAttack.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の急速な進歩にもかかわらず、視覚的モダリティの統合は、敵がバイアスや悪意のあるアウトプットを引き出すために活用できる新たな安全性の脆弱性を導入している。
本稿では,LVLMが未使用のスロット値と安全でないコンテンツとを補完するセマンティックスロットフィリングによる未発見の脆弱性を実証する。
この発見に基づいて、ブラックボックス設定下でシンプルだが効果的な単一クエリジェイルブレイクフレームワークであるStructAttackを提案する。
StructAttackは、有害なクエリを中央のトピックと良心的なスロットタイプに分解し、小さなランダムな摂動で構造化された視覚的プロンプト(マインドマップ、テーブル、サンバーストダイアグラムなど)として埋め込む。
コンプリート誘導命令を装備したLVLMは、隠蔽されたセマンティクスを自動で再構成し、安全機構を起動することなく安全でない出力を生成する。
それぞれのスロットは孤立している(局所的な良性)ように見えるが、StructAttackはLVLMの推論を利用してこれらのスロットをコヒーレントな有害な意味論に組み立てる。
複数のモデルとベンチマークに対する大規模な実験は、提案したStructAttackの有効性を示している。
関連論文リスト
- Hiding in Plain Text: Detecting Concealed Jailbreaks via Activation Disentanglement [13.976796671311066]
大規模言語モデル (LLM) は、リーチでセマンティックに一貫性のあるジェイルブレイクプロンプトに対して脆弱なままである。
本稿では,LLMアクティベーションにおけるセマンティックファクタペアを推論時にアンタングリングするための自己教師型フレームワークを提案する。
次に、フレーミング表現で動作する異常検出器であるFrameShieldを提案し、モデルに依存しない検出を改善する。
論文 参考訳(メタデータ) (2026-02-23T00:11:30Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - BreakFun: Jailbreaking LLMs via Schema Exploitation [0.28647133890966986]
我々は,Large Language Models (LLM) がいかにして重大な弱点となるかを検討する。
この脆弱性は転送可能であり、13モデルの平均成功率は89%に達する。
二次 LLM は、ユーザの真の有害な意図を分離し、明らかにするために "Literal Transcription" を実行する。
論文 参考訳(メタデータ) (2025-10-19T11:27:44Z) - PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。
提案手法では,有害な指示を視覚ガジェットの系列に分解する。
以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文 参考訳(メタデータ) (2025-07-29T07:13:56Z) - The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。
DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文 参考訳(メタデータ) (2024-02-25T17:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。