論文の概要: CAHS-Attack: CLIP-Aware Heuristic Search Attack Method for Stable Diffusion
- arxiv url: http://arxiv.org/abs/2511.21180v1
- Date: Wed, 26 Nov 2025 08:52:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.025432
- Title: CAHS-Attack: CLIP-Aware Heuristic Search Attack Method for Stable Diffusion
- Title(参考訳): CAHS-Attack:安定拡散のためのCLIP対応ヒューリスティックサーチ手法
- Authors: Shuhan Xia, Jing Dai, Hui Ouyang, Yadong Shang, Dongxiao Zhao, Peipei Li,
- Abstract要約: 拡散モデルは、敵のプロンプトに直面すると顕著な脆弱さを示す。
本稿では,CLIP-Aware Heuristic Search攻撃法CAHS-Attackを提案する。
- 参考スコア(独自算出の注目度): 6.4760110921280045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models exhibit notable fragility when faced with adversarial prompts, and strengthening attack capabilities is crucial for uncovering such vulnerabilities and building more robust generative systems. Existing works often rely on white-box access to model gradients or hand-crafted prompt engineering, which is infeasible in real-world deployments due to restricted access or poor attack effect. In this paper, we propose CAHS-Attack , a CLIP-Aware Heuristic Search attack method. CAHS-Attack integrates Monte Carlo Tree Search (MCTS) to perform fine-grained suffix optimization, leveraging a constrained genetic algorithm to preselect high-potential adversarial prompts as root nodes, and retaining the most semantically disruptive outcome at each simulation rollout for efficient local search. Extensive experiments demonstrate that our method achieves state-of-the-art attack performance across both short and long prompts of varying semantics. Furthermore, we find that the fragility of SD models can be attributed to the inherent vulnerability of their CLIP-based text encoders, suggesting a fundamental security risk in current text-to-image pipelines.
- Abstract(参考訳): 拡散モデルは、敵のプロンプトに直面すると顕著な脆弱性を示し、攻撃能力を強化することは、そのような脆弱性を発見し、より堅牢な生成システムを構築するために重要である。
既存の作業は、モデルグラデーションや手作りのプロンプトエンジニアリングへのホワイトボックスアクセスに依存していることが多い。
本稿では,CLIP対応ヒューリスティックサーチ手法CAHS-Attackを提案する。
CAHS-Attackはモンテカルロ木探索(MCTS)を統合して微細な接尾辞最適化を行い、制約付き遺伝的アルゴリズムを利用してルートノードとして高能率逆数プロンプトをプリセレクトし、各シミュレーションロールアウトにおいて最も意味論的に破壊的な結果を保持し、効率的な局所探索を行う。
大規模な実験により,本手法は様々な意味論の短いプロンプトと長いプロンプトにまたがって,最先端の攻撃性能を達成できることが実証された。
さらに、SDモデルの脆弱性は、CLIPベースのテキストエンコーダの固有の脆弱性に起因する可能性があり、現在のテキスト・ツー・イメージパイプラインにおける基本的なセキュリティリスクが示唆されている。
関連論文リスト
- Layer-Wise Perturbations via Sparse Autoencoders for Adversarial Text Generation [4.893110077312707]
本研究では,大規模モデルの解釈可能性を活用するブラックボックス攻撃手法を提案する。
Sparse Feature Perturbation Framework (SFPF) を導入する。
実験結果から,SFPFが生成した対向テキストは,最先端の防御機構をバイパスできることが示された。
論文 参考訳(メタデータ) (2025-08-14T07:12:44Z) - CLIProv: A Contrastive Log-to-Intelligence Multimodal Approach for Threat Detection and Provenance Analysis [6.680853786327484]
本稿では,ホストシステムにおける脅威行動を検出する新しいアプローチであるCLIProvを紹介する。
脅威インテリジェンスに攻撃パターン情報を活用することで、CLIProvはTTPを特定し、完全かつ簡潔な攻撃シナリオを生成する。
最先端の手法と比較して、CLIProvは精度が高く、検出効率が大幅に向上している。
論文 参考訳(メタデータ) (2025-07-12T04:20:00Z) - White-Basilisk: A Hybrid Model for Code Vulnerability Detection [45.03594130075282]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - Expert-in-the-Loop Systems with Cross-Domain and In-Domain Few-Shot Learning for Software Vulnerability Detection [38.083049237330826]
本研究では,CWE(Common Weaknessions)を用いたPythonコードの識別をシミュレーションすることにより,ソフトウェア脆弱性評価におけるLLM(Large Language Models)の利用について検討する。
その結果,ゼロショットプロンプトは性能が低いが,少数ショットプロンプトは分類性能を著しく向上させることがわかった。
モデル信頼性、解釈可能性、敵の堅牢性といった課題は、将来の研究にとって重要な領域のままである。
論文 参考訳(メタデータ) (2025-06-11T18:43:51Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Unleashing the Power of Pre-trained Encoders for Universal Adversarial Attack Detection [21.03032944637112]
アドリアック攻撃は、現実世界のAIシステムにとって重要なセキュリティ脅威となる。
本稿では,大規模事前学習型視覚言語モデルCLIPに基づく,軽量な逆検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-01T05:21:45Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。