論文の概要: I Can't Believe It's Not Robust: Catastrophic Collapse of Safety Classifiers under Embedding Drift
- arxiv url: http://arxiv.org/abs/2603.01297v1
- Date: Sun, 01 Mar 2026 22:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.615777
- Title: I Can't Believe It's Not Robust: Catastrophic Collapse of Safety Classifiers under Embedding Drift
- Title(参考訳): 耐え難い! 爆発的な安全分類器の崩壊
- Authors: Subramanyam Sahoo, Vinija Jain, Divya Chaudhary, Aman Chadha,
- Abstract要約: 命令調整型推論モデルは、ベースモデルよりも20$%以上のクラス分離性を示し、整列系をパラドックス的に保護することが困難であることを示す。
我々の発見は、プロダクションAI安全アーキテクチャにおける根本的な脆弱性を明らかにし、モデルバージョン間で安全メカニズムが転送されるという仮定に挑戦する。
- 参考スコア(独自算出の注目度): 16.505918019260964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuned reasoning models are increasingly deployed with safety classifiers trained on frozen embeddings, assuming representation stability across model updates. We systematically investigate this assumption and find it fails: normalized perturbations of magnitude $σ=0.02$ (corresponding to $\approx 1^\circ$ angular drift on the embedding sphere) reduce classifier performance from $85\%$ to $50\%$ ROC-AUC. Critically, mean confidence only drops $14\%$, producing dangerous silent failures where $72\%$ of misclassifications occur with high confidence, defeating standard monitoring. We further show that instruction-tuned models exhibit 20$\%$ worse class separability than base models, making aligned systems paradoxically harder to safeguard. Our findings expose a fundamental fragility in production AI safety architectures and challenge the assumption that safety mechanisms transfer across model versions.
- Abstract(参考訳): 命令調整推論モデルは、モデル更新間の表現安定性を仮定して、凍結埋め込みに基づいて訓練された安全分類器でますます展開される。
正規化摂動は$σ=0.02$(埋め込み球上では$\approx 1^\circ$ angular driftに対応する)であり、分類器の性能は8,5\%$から50\%$ROC-AUCに低下する。
クリティカルなことに、平均的信頼度は14\%しか低下せず、危険なサイレント障害を引き起こします。
さらに、命令調整されたモデルは、ベースモデルよりも20$\%$悪いクラス分離性を示し、整列系をパラドックス的に保護することが困難であることを示す。
我々の発見は、プロダクションAI安全アーキテクチャにおける根本的な脆弱性を明らかにし、モデルバージョン間で安全メカニズムが転送されるという仮定に挑戦する。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - $\textbf{AGT$^{AO}$}$: Robust and Stabilized LLM Unlearning via Adversarial Gating Training with Adaptive Orthogonality [28.07698632768221]
本研究では,ロバスト消去と実用性保全を両立させる統一的な枠組みを提案する。
Adversarial Gating Training (AGT)$ formulates unlearning as a latent-space min-max game。
実験によると、AGT$は、未学習の有効性とモデルユーティリティのトレードオフを緩和する。
論文 参考訳(メタデータ) (2026-02-02T06:19:27Z) - Expected Harm: Rethinking Safety Evaluation of (Mis)Aligned LLMs [24.88278177777809]
我々は、実行コストの関数としてモデル化された、Jailbreakの重大度をその実行可能性によって重み付けする、期待されるHarmを紹介した。
このプロパティを利用することで、既存のjailbreakの攻撃成功率を最大2倍に向上させます。
論文 参考訳(メタデータ) (2026-02-02T03:48:04Z) - THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - PROSAC: Provably Safe Certification for Machine Learning Models under Adversarial Attacks [22.30471086955775]
最先端の機械学習モデルは、敵の摂動によって深刻な危険にさらされる可能性がある。
本稿では,敵対的攻撃が存在する場合に,機械学習モデルの性能を証明するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-04T22:45:20Z) - Getting a-Round Guarantees: Floating-Point Attacks on Certified Robustness [19.380453459873298]
敵の例は、わずかな入力摂動によって機械学習分類器の決定を変更できるため、セキュリティリスクを引き起こす。
これらの保証は、ラウンドエラーを引き起こす浮動小数点表現の制限により無効化可能であることを示す。
この攻撃は、正確な認証保証を持つ線形分類器や、保守的な認証を持つニューラルネットワークに対して実行可能であることを示す。
論文 参考訳(メタデータ) (2022-05-20T13:07:36Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。