論文の概要: On the Geometric Limits of Transformer Defenses against Obfuscation Attacks: Latent Embedding Collapse & Performance Robustness Gap
- arxiv url: http://arxiv.org/abs/2605.19159v1
- Date: Mon, 18 May 2026 22:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.014876
- Title: On the Geometric Limits of Transformer Defenses against Obfuscation Attacks: Latent Embedding Collapse & Performance Robustness Gap
- Title(参考訳): 難治性攻撃に対する変圧器防御の幾何学的限界について:潜伏型崩壊と性能ロバスト性ギャップ
- Authors: Becky Mashaido, Tapadhir Das,
- Abstract要約: 高い検出性能は表現力を示すものではないことを示す。
その結果,深度とキャパシティの異なる複数のBERTファミリーエンコーダにまたがって,検出器がほぼ完璧な分類性能を達成できることが示唆された。
難解な埋め込みは、さらに高いクラス内分散(3.33 +/- 6.23)を示し、高い性能にもかかわらず重い潜伏空間不安定を示す。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection attacks pose significant risks to language model safety, yet existing defenses are typically evaluated using classification performance. We show that high detection performance does not imply representational robustness. Specifically, multi-operator obfuscated prompts (combining homoglyphs, zero-width characters, and punctuation or emoji noise) can partially collapse onto the embedding manifold of clean prompts, a phenomenon we term latent embedding collapse. Results indicate that across multiple BERT family encoders with varying depth and capacity, detectors achieve near-perfect classification performance, yet the minimal clean-obfuscated margin delta = 1.02, indicating near-overlap of obfuscated and clean embeddings. Obfuscated embeddings further exhibit elevated intra-class variance (3.33 +/- 6.23), indicating severe latent-space instability despite high performance. These results reveal a substantial perf ormance-robustness gap, demonstrating that standard evaluation metrics fail to capture latent embedding collapse and underlying geometric fragility. Our findings show that increasing model capacity does not eliminate latent embedding collapse, motivating geometry-aware robustness analysis as a necessary complement to performance-based evaluation for prompt-injection defenses.
- Abstract(参考訳): プロンプトインジェクション攻撃は言語モデルの安全性に重大なリスクをもたらすが、既存の防御は典型的には分類性能を用いて評価される。
高い検出性能は表現力を示すものではないことを示す。
具体的には、多機能難読化プロンプト(ホモグリフ、ゼロ幅文字、句読点、絵文字ノイズの組み合わせ)は、クリーンプロンプトの埋め込み多様体に部分的に崩壊することがある。
以上の結果から,複数のBERTファミリーエンコーダの深さとキャパシティの異なる領域において,検出器はほぼ完璧な分類性能が得られたが,最小限のクリーン・オブファステッド・マージンデルタ=1.02は,難燃性およびクリーンな埋め込みのほぼオーバーラップを示す。
難解な埋め込みは、さらに高いクラス内分散(3.33 +/- 6.23)を示し、高い性能にもかかわらず重い潜伏空間不安定を示す。
これらの結果から, 標準評価基準が潜伏埋没崩壊と基礎となる幾何学的不安定さを捉えるのに失敗することを示した。
本研究は, モデルキャパシティの増大は, 潜伏埋没崩壊を排除せず, プロンプト注入防御のための性能ベース評価の補足として, 幾何認識ロバストネス分析を動機付けていることを示す。
関連論文リスト
- Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers [1.9839136494100942]
ガードレールは生産言語モデルを有害な行動から保護するが、正式な保証は提供しない。
SVD整列超矩形とガウス混合モデルという2つの領域の構成を提案する。
このフレームワークを、毒性ドメイン上の3つの著者がトレーニングしたガードレールに適用すると、すべての超矩形構成はSATを返す。
GPT-2とLlama-3.1-8Bは、様々な境界で90%と80%の堅牢なカバーを維持しているが、BERTの安全保証は独特な揮発性を証明している。
論文 参考訳(メタデータ) (2026-05-11T17:41:38Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - DeepSeek Robustness Against Semantic-Character Dual-Space Mutated Prompt Injection [45.67420390185547]
本稿では,プロンプトインジェクションに対するロバスト性を評価するためのセマンティックキャラクタであるPromptFuzz-SCを提案する。
Epsilon-greedy 探索とヒルクライミングの改良を組み合わせたハイブリッド探索手法を採用し,高品質な対向プロンプトを効率的に発見する。
DeepSeekの実験結果によると、二重空間変異は攻撃性能が最強であることが示されている。
論文 参考訳(メタデータ) (2026-04-14T10:20:15Z) - BadDet+: Robust Backdoor Attacks for Object Detection [10.393154496941527]
BadDet+は、Regional Misclassification Attacks(RMA)とObject Disappearance Attacks(ODA)を統合したペナルティベースのフレームワークである。
実世界のベンチマークでは、BadDet+は、クリーンなパフォーマンスを維持しながら既存のRMAやOdaベースラインよりも優れた合成と物理の転送を実現している。
これらの結果は、物体検出における重大な脆弱性と、特殊防御の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-28T21:46:33Z) - Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction [51.50282796099369]
本稿では,多次元命令の不確実性低減フレームワークを開発し,意味論的に制約された逆の例を生成する。
言語誘導サンプリングプロセスの予測により、設計したResAdv-DDIMサンプルにより最適化プロセスが安定化される。
セマンティック制約付き3次元逆数例の参照フリー生成を初めて実現した。
論文 参考訳(メタデータ) (2025-10-27T04:02:52Z) - ForensicsSAM: Toward Robust and Unified Image Forgery Detection and Localization Resisting to Adversarial Attack [56.0056378072843]
高い転送性を持つ逆画像は上流モデルでのみ作成可能であることを示す。
本稿では,IFDLフレームワークを組み込んだForensicsSAMを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:03:44Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。