論文の概要: Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2603.09246v1
- Date: Tue, 10 Mar 2026 06:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.098076
- Title: Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models
- Title(参考訳): Reasoning-Oriented Programming: セマンティックなガジェットをチェーンして、大規模な視覚言語モデルをジェイルブレイクする
- Authors: Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang,
- Abstract要約: LVLM(Large Vision-Language Models)は、有害なコンテンツを抑えるために安全アライメントを行う。
本稿では,LVLMを誘導し,良性前提から有害な論理を合成するシステム欠陥を同定する。
提案手法は,ベニグインプットのセマンティック衝突を編成するために,モデルの命令追従機能を利用する。
- 参考スコア(独自算出の注目度): 9.123902853709206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) undergo safety alignment to suppress harmful content. However, current defenses predominantly target explicit malicious patterns in the input representation, often overlooking the vulnerabilities inherent in compositional reasoning. In this paper, we identify a systemic flaw where LVLMs can be induced to synthesize harmful logic from benign premises. We formalize this attack paradigm as \textit{Reasoning-Oriented Programming}, drawing a structural analogy to Return-Oriented Programming in systems security. Just as ROP circumvents memory protections by chaining benign instruction sequences, our approach exploits the model's instruction-following capability to orchestrate a semantic collision of orthogonal benign inputs. We instantiate this paradigm via \tool{}, an automated framework that optimizes for \textit{semantic orthogonality} and \textit{spatial isolation}. By generating visual gadgets that are semantically decoupled from the harmful intent and arranging them to prevent premature feature fusion, \tool{} forces the malicious logic to emerge only during the late-stage reasoning process. This effectively bypasses perception-level alignment. We evaluate \tool{} on SafeBench and MM-SafetyBench across 7 state-of-the-art 0.LVLMs, including GPT-4o and Claude 3.7 Sonnet. Our results demonstrate that \tool{} consistently circumvents safety alignment, outperforming the strongest existing baseline by an average of 4.67\% on open-source models and 9.50\% on commercial models.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、有害なコンテンツを抑えるために安全アライメントを行う。
しかしながら、現在の防御は主に入力表現における明示的な悪意のあるパターンをターゲットにしており、しばしば構成的推論に固有の脆弱性を見落としている。
本稿では,LVLMを誘導し,良性前提から有害な論理を合成するシステム欠陥を同定する。
我々はこの攻撃パラダイムを「textit{Reasoning-Oriented Programming}」として形式化し、システムセキュリティにおけるReturn-Oriented Programmingに構造的な類似性を引き出す。
ROPが良性命令シーケンスをチェーンすることでメモリ保護を回避するのと同じように、我々のアプローチは直交良性入力の意味的衝突を編成するために、モデルの指示追従能力を利用する。
これは、 \textit{semantic orthogonality} と \textit{spatial isolation} を最適化する自動化フレームワークです。
有害な意図から意味的に切り離された視覚的ガジェットを生成して、未熟な特徴融合を防ぐためにそれらをアレンジすることで、‘tool{}’は悪意のあるロジックを後期の推論プロセスにのみ出現させる。
これは知覚レベルのアライメントを効果的にバイパスする。
GPT-4o や Claude 3.7 Sonnet を含む7つの最先端 0.LVLM のSafeBench および MM-SafetyBench 上の \tool{} の評価を行った。
以上の結果から,オープンソースモデルでは平均4.67 %,商用モデルでは9.50 %,既存のベースラインでは最強である。
関連論文リスト
- Invisible Safety Threat: Malicious Finetuning for LLM via Steganography [74.00809267925642]
妥協された大きな言語モデルは、有害なコンテンツを隠蔽しながら適切な安全アライメントのファサードを維持することができる。
OpenAIファインタニングAPIの保護にもかかわらず、GPT-4.1のこの目に見えない安全脅威を実証する。
本稿では,コンテンツ安全分類のためのLlama-Guard-3-8Bを用いて,AdvBenchデータセット上での手法を定量的に評価する。
論文 参考訳(メタデータ) (2026-03-09T08:48:27Z) - Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints [9.698319722490043]
SructAttackは、ブラックボックス設定下でシンプルだが効果的な単一クエリのジェイルブレイクフレームワークである。
StructAttackはLVLMの推論を利用してこれらのスロットをコヒーレントな有害な意味論に組み立てることを示す。
複数のモデルとベンチマーク実験により,提案したStructAttackの有効性が示された。
論文 参考訳(メタデータ) (2026-03-08T11:22:41Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - In-Context Representation Hijacking [15.706479613839967]
Doublespeakは、大規模言語モデルに対するコンテキスト内表現ハイジャック攻撃である。
置換は有害なトークンに対して収束した良性トークンの内部表現につながることを示す。
このセマンティクスが層ごとに出現し、初期層における良性の意味が後層において有害なセマンティクスに収束することを示します。
論文 参考訳(メタデータ) (2025-12-03T13:19:34Z) - PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。
提案手法では,有害な指示を視覚ガジェットの系列に分解する。
以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文 参考訳(メタデータ) (2025-07-29T07:13:56Z) - The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。