論文の概要: Guardian-as-an-Advisor: Advancing Next-Generation Guardian Models for Trustworthy LLMs
- arxiv url: http://arxiv.org/abs/2604.07655v1
- Date: Wed, 08 Apr 2026 23:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.599395
- Title: Guardian-as-an-Advisor: Advancing Next-Generation Guardian Models for Trustworthy LLMs
- Title(参考訳): Guardian-as-an-Advisor: 信頼できるLLMのための次世代ガーディアンモデルの改善
- Authors: Yue Huang, Haomin Zhuang, Jiayi Ye, Han Bao, Yanbo Wang, Hang Hua, Siyuan Wu, Pin-Yu Chen, Xiangliang Zhang,
- Abstract要約: ハードゲートのセーフティチェッカーは、しばしばベンダーのモデル仕様に過度に反抗し、不平を言う。
この研究は、ガーディアン・アズ・ア・アドバイザ(GaaA)というソフトゲーティングパイプラインを導入し、保護者がバイナリリスクラベルを予測し、このアドバイスを元のクエリに再推論する。
全体として、GaaAはモデル仕様に従うようモデルに指示し、過度な拒絶を減らしながら安全性を維持している。
- 参考スコア(独自算出の注目度): 70.81495077853673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hard-gated safety checkers often over-refuse and misalign with a vendor's model spec; prevailing taxonomies also neglect robustness and honesty, yielding safer-on-paper yet less useful systems. This work introduces Guardian-as-an-Advisor (GaaA), a soft-gating pipeline where a guardian predicts a binary risk label plus a concise explanation and prepends this advice to the original query for re-inference, keeping the base model operating under its original spec. To support training and evaluation, GuardSet is constructed, a 208k+ multi-domain dataset unifying harmful and harmless cases with targeted robustness and honesty slices. GuardAdvisor is trained via SFT followed by RL to enforce label-explanation consistency. GuardAdvisor attains competitive detection accuracy while enabling the advisory workflow; when used to augment inputs, responses improve over unaugmented prompts. A latency study shows advisor inference uses below 5% of base-model compute and adds only 2-10% end-to-end overhead under realistic harmful-input rates. Overall, GaaA steers models to comply with the model spec, maintaining safety while reducing over-refusal.
- Abstract(参考訳): ハードゲートの安全チェックは、しばしばベンダーのモデル仕様を過度に否定し、誤った扱いをする。
この研究は、ガーディアン・アズ・ア・アドバイザ(GaaA)というソフトゲーティングパイプラインを紹介し、保護者がバイナリリスクラベルを予測し、簡潔な説明を行い、このアドバイスを元のクエリの再推論に優先し、ベースモデルを元の仕様の下で動作させる。
トレーニングと評価をサポートするため、GuardSetは208k以上のマルチドメインデータセットを構築し、有害で有害なケースをターゲットとした堅牢性と正直なスライスで統一する。
GuardAdvisorはSFT経由でトレーニングされ、RLがラベルと説明の一貫性を強制する。
GuardAdvisorはアドバイザリワークフローを有効にしながら、競合検出の精度を向上する。
遅延調査では、アドバイザ推論がベースモデルの計算の5%以下で使われており、現実的な有害なインプットレートの下では、エンド・ツー・エンドのオーバーヘッドはわずか2-10%に留まっている。
全体として、GaaAはモデル仕様に準拠し、安全性を維持しながら過剰な拒絶を減らし、モデルを操縦する。
関連論文リスト
- THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - AprielGuard [2.3704817495377526]
既存のツールは、安全性のリスクを別の問題として扱い、堅牢性と一般化性を制限する。
AprielGuardは8Bパラメータ保護モデルで、これらの次元を単一の分類と学習フレームワークに統合する。
AprielGuardは有害なコンテンツの検出と敵の操作において高い性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T12:01:32Z) - RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails under RAG-style Contexts [39.58550043591753]
外部LLMベースのガードレールモデルは、安全でない入力と出力をスクリーニングする一般的なソリューションとして登場した。
LLMをベースとしたガードレールが,文脈に埋め込まれた追加情報に対していかに堅牢かを検討した。
論文 参考訳(メタデータ) (2025-10-06T19:20:43Z) - ThinkGuard: Deliberative Slow Thinking Leads to Cautious Guardrails [33.96886111900147]
ThinkGuardは、高容量言語モデルから知識を抽出する、批判的な拡張されたガードレールモデルである。
平均的なF1とAUPRCを達成し、全てのベースラインを上回ります。
ラベルのみの微調整モデルを超え、構造化された批評によって分類精度とニュアンス付き安全推論の両方が向上することを確認した。
論文 参考訳(メタデータ) (2025-02-19T06:09:58Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。