論文の概要: Harnessing Hyperbolic Geometry for Harmful Prompt Detection and Sanitization
- arxiv url: http://arxiv.org/abs/2604.06285v1
- Date: Tue, 07 Apr 2026 12:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.150952
- Title: Harnessing Hyperbolic Geometry for Harmful Prompt Detection and Sanitization
- Title(参考訳): 有害プロンプト検出・消毒のためのハーネス化ハイパーボリック幾何
- Authors: Igor Maljkovic, Maria Rosaria Briglia, Iacopo Masi, Antonio Emanuele Cinà, Fabio Roli,
- Abstract要約: Hyperbolic Prompt Espial(HyPE)とHyperbolic Prompt Sanitization(HyPS)
HyPEは、双曲空間の構造的幾何を利用して良性プロンプトをモデル化し、有害なものを外れ値として検出する軽量な異常検出器である。
HyPSは、ユーザプロンプトの本来の意味を保ちながら、有害な単語、安全でない意図を識別し、選択的に修正するための説明可能な属性メソッドを適用することにより、この検出に基づいている。
- 参考スコア(独自算出の注目度): 9.425359559180771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have become essential for tasks such as image synthesis, captioning, and retrieval by aligning textual and visual information in a shared embedding space. Yet, this flexibility also makes them vulnerable to malicious prompts designed to produce unsafe content, raising critical safety concerns. Existing defenses either rely on blacklist filters, which are easily circumvented, or on heavy classifier-based systems, both of which are costly and fragile under embedding-level attacks. We address these challenges with two complementary components: Hyperbolic Prompt Espial (HyPE) and Hyperbolic Prompt Sanitization (HyPS). HyPE is a lightweight anomaly detector that leverages the structured geometry of hyperbolic space to model benign prompts and detect harmful ones as outliers. HyPS builds on this detection by applying explainable attribution methods to identify and selectively modify harmful words, neutralizing unsafe intent while preserving the original semantics of user prompts. Through extensive experiments across multiple datasets and adversarial scenarios, we prove that our framework consistently outperforms prior defenses in both detection accuracy and robustness. Together, HyPE and HyPS offer an efficient, interpretable, and resilient approach to safeguarding VLMs against malicious prompt misuse.
- Abstract(参考訳): VLM(Vision-Language Models)は、画像合成、キャプション、検索などのタスクにおいて、テキスト情報と視覚情報を共有埋め込み空間に整列させることで必須となっている。
しかし、この柔軟性により、安全でないコンテンツを生成するために設計された悪意のあるプロンプトに対して脆弱になり、重大な安全上の懸念がもたらされる。
既存の防御は、容易に回避できるブラックリストフィルタか、重分類器ベースのシステムに依存している。
本稿では,これらの課題を,HyPE(Hyperbolic Prompt Espial)とHyPS(Hyperbolic Prompt Sanitization)の2つの相補的なコンポーネントで解決する。
HyPEは、双曲空間の構造的幾何を利用して良性プロンプトをモデル化し、有害なものを外れ値として検出する軽量な異常検出器である。
HyPSは、有害な単語を識別し、選択的に修正するための説明可能な属性法を適用し、ユーザープロンプトの本来の意味を保ちながら、安全でない意図を中和する。
複数のデータセットと敵シナリオにわたる広範な実験を通じて、我々のフレームワークは検出精度と堅牢性の両方において、常に先行防御よりも優れていたことを証明した。
HyPEとHyPSは共に、悪質な迅速な誤用からVLMを保護するための効率的で解釈可能で弾力性のあるアプローチを提供している。
関連論文リスト
- SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Spoofing-aware Prompt Learning for Unified Physical-Digital Facial Attack Detection [28.74960061024677]
実世界の顔認識システムは、物理的提示攻撃(PA)とデジタル偽造攻撃(DF)の両方に脆弱である
本稿では,迅速な空間における物理的およびデジタル攻撃のための最適化分岐を分離する,SPL-UAD(Spoofing-aware Prompt Learning for Unified Detection)フレームワークを提案する。
大規模UniAttackDataPlusデータセットの実験により,提案手法は攻撃検出タスクの統一化において,大幅な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2025-12-06T09:34:39Z) - PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance [10.105673138616483]
大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
攻撃者がパラフレーズ、難読化、マルチタスクのインジェクション戦略で進化するにつれて、既存のベンチマークは、出現する脅威の全スペクトルを捉えるのに十分ではない。
PromptSleuthは,表面的特徴ではなくタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークである。
論文 参考訳(メタデータ) (2025-08-28T15:19:07Z) - Are All Prompt Components Value-Neutral? Understanding the Heterogeneous Adversarial Robustness of Dissected Prompt in Large Language Models [11.625319498017733]
PromptAnatomyは、プロンプトを機能コンポーネントに分解する自動化フレームワークです。
提案手法であるComPerturbを用いて,各コンポーネントを選択的に摂動することで,逆例を生成する。
補完的なリソースとして,PromptAnatomyフレームワークを用いて4つの公開命令チューニングデータセットを注釈付けする。
論文 参考訳(メタデータ) (2025-08-03T02:46:30Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning [43.209846711845536]
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
マシン・アンラーニング(MU)は、教師付き安全微調整の強力な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Interpretability is a Kind of Safety: An Interpreter-based Ensemble for
Adversary Defense [28.398901783858005]
我々は,強固な防御敵に対するX-Ensembleと呼ばれるインタプリタベースのアンサンブルフレームワークを提案する。
X-エンサンブルはランダムフォレスト(RF)モデルを用いて、準検出器をアンサンブル検出器に結合し、敵のハイブリッド攻撃防御を行う。
論文 参考訳(メタデータ) (2023-04-14T04:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。