論文の概要: YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.15588v1
- Date: Thu, 22 Jan 2026 02:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.468937
- Title: YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models
- Title(参考訳): YuFeng-XGuard:大規模言語モデルのための推論中心、解釈可能、フレキシブルガードレールモデル
- Authors: Junyu Lin, Meizhen Liu, Xiufeng Huang, Jinfeng Li, Haiwen Hong, Xiaohan Yuan, Yuefeng Chen, Longtao Huang, Hui Xue, Ranjie Duan, Zhikai Chen, Yuchuan Fu, Defeng Li, Lingyao Gao, Yitong Yang,
- Abstract要約: 我々はYuFeng-XGuardについて紹介する。YuFeng-XGuardは大規模言語モデル(LLM)のための論理中心ガードレールモデルである。
YuFeng-XGuardは不透明な二項判定を生成する代わりに、明確なリスクカテゴリや信頼性スコアを含む構造化されたリスク予測を生成する。
リスク認識を政策執行から切り離す動的政策機構を導入し、モデルの再訓練なしに安全政策を調整できるようにした。
- 参考スコア(独自算出の注目度): 36.084240131323824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in real-world applications, safety guardrails are required to go beyond coarse-grained filtering and support fine-grained, interpretable, and adaptable risk assessment. However, existing solutions often rely on rapid classification schemes or post-hoc rules, resulting in limited transparency, inflexible policies, or prohibitive inference costs. To this end, we present YuFeng-XGuard, a reasoning-centric guardrail model family designed to perform multi-dimensional risk perception for LLM interactions. Instead of producing opaque binary judgments, YuFeng-XGuard generates structured risk predictions, including explicit risk categories and configurable confidence scores, accompanied by natural language explanations that expose the underlying reasoning process. This formulation enables safety decisions that are both actionable and interpretable. To balance decision latency and explanatory depth, we adopt a tiered inference paradigm that performs an initial risk decision based on the first decoded token, while preserving ondemand explanatory reasoning when required. In addition, we introduce a dynamic policy mechanism that decouples risk perception from policy enforcement, allowing safety policies to be adjusted without model retraining. Extensive experiments on a diverse set of public safety benchmarks demonstrate that YuFeng-XGuard achieves stateof-the-art performance while maintaining strong efficiency-efficacy trade-offs. We release YuFeng-XGuard as an open model family, including both a full-capacity variant and a lightweight version, to support a wide range of deployment scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実世界のアプリケーションにますます導入されるにつれて、安全ガードレールは粗粒度フィルタリングを超えて、きめ細かい、解釈可能な、適応可能なリスクアセスメントをサポートする必要がある。
しかし、既存のソリューションは、しばしば急激な分類スキームやポストホックルールに依存しており、その結果、透明性、柔軟性のないポリシー、あるいは禁止的な推論コストが制限される。
この目的のために,LLM相互作用に対する多次元リスク認識を実現するために設計された推論中心ガードレールモデルであるYuFeng-XGuardを提案する。
YuFeng-XGuardは不透明な二項判定を生成する代わりに、明確なリスクカテゴリや設定可能な信頼スコアを含む構造化されたリスク予測を生成する。
この定式化は、行動可能かつ解釈可能な安全決定を可能にする。
決定遅延と説明深さのバランスをとるために,初回復号化トークンに基づく初期リスク決定を行う階層推論パラダイムを採用し,必要に応じてオンデマンド説明推論を保存した。
さらに,リスク認識を政策執行から切り離す動的政策機構を導入し,モデルの再訓練なしに安全政策を調整できるようにした。
様々な公共安全ベンチマークに関する大規模な実験は、YuFeng-XGuardが高い効率効率と効率のトレードオフを維持しながら最先端のパフォーマンスを達成することを示した。
YuFeng-XGuardをフル容量版と軽量版の両方を含むオープンモデルファミリとしてリリースし、幅広いデプロイメントシナリオをサポートしています。
関連論文リスト
- ProGuard: Towards Proactive Multimodal Safeguard [48.89789547707647]
ProGuardは視覚言語プロアクティブガードであり、アウト・オブ・ディストリビューション(OOD)の安全性リスクを特定し記述する。
まず,2次安全ラベルとリスクカテゴリの両方を付加した87Kサンプルのモダリティバランスデータセットを構築した。
次に、強化学習を通して視覚言語ベースモデルを純粋に訓練し、効率的かつ簡潔な推論を実現する。
論文 参考訳(メタデータ) (2025-12-29T16:13:23Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement [35.904652937034136]
IntentionReasonerは、専用ガードモデルを利用して意図的推論を行う新しいセーフガード機構である。
IntentionReasonerは、複数のセーフガードベンチマーク、生成品質評価、ジェイルブレイク攻撃シナリオに優れています。
論文 参考訳(メタデータ) (2025-08-27T16:47:31Z) - Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary [28.247658612894668]
RASSは、安全境界付近で過度に拒絶するプロンプトを戦略的にターゲットとする、プロンプト生成と選択のための自動化されたフレームワークである。
RASSは、境界に沿ったプロンプトを効果的に識別し、キュレートし、オーバーリフレクションのより効果的でターゲットを絞った緩和を可能にする。
論文 参考訳(メタデータ) (2025-05-23T19:30:49Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。