論文の概要: Guarding the Meaning: Self-Supervised Training for Semantic Robustness in Guard Models
- arxiv url: http://arxiv.org/abs/2511.10665v1
- Date: Thu, 06 Nov 2025 14:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.244411
- Title: Guarding the Meaning: Self-Supervised Training for Semantic Robustness in Guard Models
- Title(参考訳): 意味のガード:ガードモデルにおける意味的ロバスト性のための自己監督的トレーニング
- Authors: Cristina Pinneri, Christos Louizos,
- Abstract要約: ガードモデルのセマンティックロバスト性を改善するための自己教師型フレームワークを提案する。
提案手法では,パラフレーズ間の意味的変動を58%削減し,ベンチマークの精度を平均2.5%向上し,スタイリスティックなバリエーションに一般化する。
- 参考スコア(独自算出の注目度): 11.679845732117116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guard models are a critical component of LLM safety, but their sensitivity to superficial linguistic variations remains a key vulnerability. We show that even meaning-preserving paraphrases can cause large fluctuations in safety scores, revealing a lack of semantic grounding. To address this, we introduce a practical, self-supervised framework for improving the semantic robustness of guard models. Our method leverages paraphrase sets to enforce prediction consistency using a novel, skew-aware aggregation strategy for robust target computation. Notably, we find that standard aggregation methods like mean and median can degrade safety, underscoring the need for skew-aware alternatives. We analyze six open-source guard models and show that our approach reduces semantic variability across paraphrases by ~58%, improves benchmark accuracy by ~2.5% on average, and generalizes to unseen stylistic variations. Intriguingly, we discover a bidirectional relationship between model calibration and consistency: our robustness training improves calibration by up to 40%, revealing a fundamental connection between these properties. These results highlight the value of treating semantic consistency as a first-class training objective and provide a scalable recipe for building more reliable guard models.
- Abstract(参考訳): ガードモデルはLLMの安全性の重要な要素であるが、表面言語的変異に対する感度は依然として重要な脆弱性である。
意味保存パラフレーズでさえ安全性スコアの大きな変動を引き起こす可能性を示し、意味的根拠の欠如を明らかにした。
そこで本稿では,ガードモデルのセマンティックロバスト性を改善するための,実践的で自己管理的なフレームワークを提案する。
提案手法は,新しいスキュー・アウェア・アウェア・アグリゲーション・ストラテジーによる予測一貫性の強化にパラフレーズセットを利用する。
特に、平均値や中央値のような標準集約手法は安全性を低下させ、スキュー認識の代替手段の必要性を強調できる。
我々は6つのオープンソースガードモデルを分析し、我々のアプローチがパラフレーズ間のセマンティック変数を約58%削減し、ベンチマークの精度を平均で約2.5%改善し、スタイリスティックなバリエーションに一般化することを示した。
我々の堅牢性トレーニングはキャリブレーションを最大40%向上させ、これらの特性の基本的な関係を明らかにする。
これらの結果は、セマンティック一貫性を第一級のトレーニング目標として扱うことの価値を強調し、より信頼性の高いガードモデルを構築するためのスケーラブルなレシピを提供する。
関連論文リスト
- Guided Uncertainty Learning Using a Post-Hoc Evidential Meta-Model [3.2116198597240846]
GUIDEは,凍結したディープラーニングモデルに適応し,いつ,いつ,不確実かを明確に学習する,軽量な顕在学習メタモデルアプローチである。
GUIDEはリトレーニングもアーキテクチャの変更も必要とせず、ベースとなるディープラーニングモデルに対して手動の中間層選択も必要ありません。
さまざまなベンチマークで最先端のアプローチを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-29T09:04:15Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Learning to Generate Training Datasets for Robust Semantic Segmentation [37.9308918593436]
セマンティックセグメンテーション手法の堅牢性を改善するための新しい手法を提案する。
我々は,現実的で可視な摂動画像を生成するために,新しい条件付き生成対向ネットワークであるRobustaを設計した。
我々の結果は、このアプローチが安全クリティカルなアプリケーションに有用である可能性を示唆している。
論文 参考訳(メタデータ) (2023-08-01T10:02:26Z) - Characterizing Data Point Vulnerability via Average-Case Robustness [29.881355412540557]
対向ロバスト性は標準的なフレームワークであり、二眼レフを通して予測のロバスト性を見る。
我々は、局所的な点数を測定する平均ケースロバストネスと呼ばれる、ロバストネスの相補的な枠組みを考察する。
従来のディープラーニングモデルでは,推定値が正確かつ効率的であることを実証的に示す。
論文 参考訳(メタデータ) (2023-07-26T01:10:29Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。