論文の概要: ThinkGuard: Deliberative Slow Thinking Leads to Cautious Guardrails
- arxiv url: http://arxiv.org/abs/2502.13458v1
- Date: Wed, 19 Feb 2025 06:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:02:17.310211
- Title: ThinkGuard: Deliberative Slow Thinking Leads to Cautious Guardrails
- Title(参考訳): ThinkGuard: デリバティブなスロー思考は、有害なガードレールにつながる
- Authors: Xiaofei Wen, Wenxuan Zhou, Wenjie Jacky Mo, Muhao Chen,
- Abstract要約: ThinkGuardは、高容量言語モデルから知識を抽出する、批判的な拡張されたガードレールモデルである。
平均的なF1とAUPRCを達成し、全てのベースラインを上回ります。
ラベルのみの微調整モデルを超え、構造化された批評によって分類精度とニュアンス付き安全推論の両方が向上することを確認した。
- 参考スコア(独自算出の注目度): 33.96886111900147
- License:
- Abstract: Ensuring the safety of large language models (LLMs) is critical as they are deployed in real-world applications. Existing guardrails rely on rule-based filtering or single-pass classification, limiting their ability to handle nuanced safety violations. To address this, we propose ThinkGuard, a critique-augmented guardrail model that distills knowledge from high-capacity LLMs by generating structured critiques alongside safety labels. Fine-tuned on critique-augmented data, the captured deliberative thinking ability drastically enhances the guardrail's cautiousness and interpretability. Evaluated on multiple safety benchmarks, ThinkGuard achieves the highest average F1 and AUPRC, outperforming all baselines. Compared to LLaMA Guard 3, ThinkGuard improves accuracy by 16.1% and macro F1 by 27.0%. Moreover, it surpasses label-only fine-tuned models, confirming that structured critiques enhance both classification precision and nuanced safety reasoning while maintaining computational efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性を保証することは、現実世界のアプリケーションにデプロイされるため、非常に重要である。
既存のガードレールはルールベースのフィルタリングやシングルパス分類に依存しており、ニュアンス付き安全違反に対処する能力を制限する。
そこで本稿では,高容量LCMから知識を抽出し,安全ラベルとともに構造化された批評を生成するための,批判強化ガードレールモデルであるThinkGuardを提案する。
批判が強化されたデータに基づいて微調整され、捕獲された熟考的思考能力はガードレールの慎重さと解釈可能性を大幅に向上させる。
複数の安全ベンチマークに基づいて評価されたThinkGuardは、平均的なF1とAUPRCを達成し、すべてのベースラインを上回っている。
LLaMA Guard 3と比較して、ThinkGuardは精度を16.1%向上し、マクロF1は27.0%向上した。
さらに、ラベルのみの微調整モデルを超え、構造化された批評が計算効率を維持しつつ、分類精度とニュアンス付き安全性推論の両方を向上させることを確認した。
関連論文リスト
- Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,LLM生成プロセスにクエリとレスポンスの安全反射を統合する新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは様々な攻撃を効果的に軽減し、全体的な安全性を改善し、LLMのジェイルブレイクに対する堅牢性を強化する上での安全性を意識した推論の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - GuardReasoner: Towards Reasoning-based LLM Safeguards [63.53800124080227]
本稿では, LLM の新たなセーフガードである GuardReasoner を提案する。
GuardReasonerTrainデータセットは、117Kのサンプルと460Kの詳細な推論ステップで構成されています。
次に、ガードモデルの推論能力を解き放つための推論SFTを導入する。
このように、GuardReasonerはより良いパフォーマンス、説明可能性、一般化可能性を達成する。
論文 参考訳(メタデータ) (2025-01-30T17:06:06Z) - You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。
主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文 参考訳(メタデータ) (2025-01-21T15:24:29Z) - SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing [1.474945380093949]
推論時ガードレール(ITG)は、モデルの出力分布をコンプライアンスにシフトするソリューションを提供する。
現在の手法は安全性と利便性のバランスをとるのに苦労している。
構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。
論文 参考訳(メタデータ) (2024-07-23T09:14:27Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - $R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning [8.408258504178718]
既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。
R2$-Guardは,知識を付加した論理的推論を通した堅牢なLLMガードレールである。
R2$-GuardはSoTAメソッドのLlamaGuardをToxicChatで30.2%、Jailbreak攻撃で59.5%を大きく上回っている。
論文 参考訳(メタデータ) (2024-07-08T02:15:29Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。