論文の概要: Robust and Efficient Guardrails with Latent Reasoning
- arxiv url: http://arxiv.org/abs/2605.29068v1
- Date: Wed, 27 May 2026 20:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.44201
- Title: Robust and Efficient Guardrails with Latent Reasoning
- Title(参考訳): 遅延推論を用いたロバスト・高能率ガードレール
- Authors: Siddharth Sai, Xiaofei Wen, Muhao Chen,
- Abstract要約: 推論ベースのガードレールは、相当なクエリレイテンシとトークンオーバーヘッドを引き起こす。
我々は,多段階の安全推論を連続的な潜伏空間に転送するガードレールモデルであるCOLAGUARDを提案する。
以上の結果から, 潜伏推論は, 展開可能なガードレールに対して, 明示的合理的生成に代わる実用的な代替手段となることが示唆された。
- 参考スコア(独自算出の注目度): 23.837448508316513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining the safety of large language models (LLMs) is crucial as they are increasingly deployed in real-world applications. Existing safety guardrails typically rely on single-pass classification or, more recently, distilled reasoning. Reasoning-based guardrails significantly outperform classification-only baselines, but they incur substantial query latency and token overhead that make them impractical for highthroughput deployment. To address this challenge, we propose COLAGUARD, a guardrail model that transfers multi-step safety reasoning into a continuous latent space through a stage-wise training curriculum, enabling direct hidden-state propagation at inference. Evaluated on ten prompt- and response-moderation settings spanning eight safety benchmarks, COLAGUARD improves macro-F1 by 8.24 points over Llama Guard 3 and matches our explicit reasoning baseline, GuardReasoner, in macroF1 while delivering a 12.9X speedup and 22.4X reduction in token usage. Our results suggest that latent reasoning offers a practical alternative to explicit rationale generation for deployable guardrails, jointly improving safety robustness and inference efficiency rather than treating them as competing objectives.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全性を維持することは、現実のアプリケーションにますますデプロイされるため、非常に重要です。
既存の安全ガードレールは、通常はシングルパスの分類や、より最近では蒸留された推論に依存している。
推論ベースのガードレールは、分類のみのベースラインを著しく上回るが、クエリ待ち時間とトークンオーバーヘッドを発生させるため、高スループットデプロイメントでは実用的ではない。
この課題に対処するために,ステージワイドのトレーニングカリキュラムを通じて,多段階の安全推論を連続的な潜伏空間に転送するガードレールモデルであるCOLAGUARDを提案する。
COLAGUARDは8つの安全ベンチマークにまたがる10のプロンプトおよびレスポンス・モデレーション設定に基づいて、Llama Guard 3上のマクロF1を8.24ポイント改善し、マクロF1の明示的な推論ベースラインであるGuardReasonerと一致し、12.9倍のスピードアップと22.4倍のトークン使用率の削減を実現した。
以上の結果から, 潜伏推論は, 配置可能なガードレールの合理的な合理的な生成の代替として, 安全ロバスト性と推論効率を両立させ, 競合する目的として扱うのではなく, 協調的に向上させることが示唆された。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model [50.29667251847595]
モデルサイズが大きく,安全性が向上しているにもかかわらず,教師と生徒の言語モデルの間にはアライメントギャップがあることが示される。
本稿では,不安全な動作を潜在空間のベースLLMに還元するBoNサンプリング手法を提案する。
特に7つの教師モデルと6つの生徒モデルが異なるクラスとサイズで、平均攻撃成功率(ASR)はDANで28.2%、WildJailbreakで31.3%、StrongREJECTベンチマークで35.4%低下した。
論文 参考訳(メタデータ) (2026-04-01T02:42:41Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - DRAFT: Task Decoupled Latent Reasoning for Agent Safety [59.46137757545185]
DRAFT(Task Decoupled Latent Reasoning for Agent Safety)を提案する。
エクストラクターは、完全な軌跡をコンパクトな連続的な潜伏ドラフトに蒸留し、リゾナーはドラフトと元の軌跡に共同で参加して安全性を予測する。
DRAFTの精度は63.27%(LoRA)から91.18%に向上した。
論文 参考訳(メタデータ) (2026-02-11T07:45:14Z) - Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - EASE: Practical and Efficient Safety Alignment for Small Language Models [4.839980912290382]
小型言語モデル(SLM)は、エッジデバイスにますますデプロイされ、安全性の整合性は重要でありながら困難である。
小型ランガグモデルに対する実用的で効率的な安全アライメントを実現するための新しいフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2025-11-09T19:46:54Z) - Black-Box Guardrail Reverse-engineering Attack [12.937652779951156]
ブラックボックスLLMガードレールのリバースエンジニアリング攻撃に関する最初の研究を行った。
強化学習に基づくフレームワークであるガードレールリバースエンジニアリングアタック(GRA)を提案する。
GRAは、APIコストが85ドル未満で、規則マッチングレートが0.92を超えている。
論文 参考訳(メタデータ) (2025-11-06T09:24:49Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement [35.904652937034136]
IntentionReasonerは、専用ガードモデルを利用して意図的推論を行う新しいセーフガード機構である。
IntentionReasonerは、複数のセーフガードベンチマーク、生成品質評価、ジェイルブレイク攻撃シナリオに優れています。
論文 参考訳(メタデータ) (2025-08-27T16:47:31Z) - ThinkGuard: Deliberative Slow Thinking Leads to Cautious Guardrails [33.96886111900147]
ThinkGuardは、高容量言語モデルから知識を抽出する、批判的な拡張されたガードレールモデルである。
平均的なF1とAUPRCを達成し、全てのベースラインを上回ります。
ラベルのみの微調整モデルを超え、構造化された批評によって分類精度とニュアンス付き安全推論の両方が向上することを確認した。
論文 参考訳(メタデータ) (2025-02-19T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。