論文の概要: GuardReasoner: Towards Reasoning-based LLM Safeguards
- arxiv url: http://arxiv.org/abs/2501.18492v1
- Date: Thu, 30 Jan 2025 17:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:38.067127
- Title: GuardReasoner: Towards Reasoning-based LLM Safeguards
- Title(参考訳): GuardReasoner: 推論ベースのLLMセーフガードを目指して
- Authors: Yue Liu, Hongcheng Gao, Shengfang Zhai, Jun Xia, Tianyi Wu, Zhiwei Xue, Yulin Chen, Kenji Kawaguchi, Jiaheng Zhang, Bryan Hooi,
- Abstract要約: 本稿では, LLM の新たなセーフガードである GuardReasoner を提案する。
GuardReasonerTrainデータセットは、117Kのサンプルと460Kの詳細な推論ステップで構成されています。
次に、ガードモデルの推論能力を解き放つための推論SFTを導入する。
このように、GuardReasonerはより良いパフォーマンス、説明可能性、一般化可能性を達成する。
- 参考スコア(独自算出の注目度): 63.53800124080227
- License:
- Abstract: As LLMs increasingly impact safety-critical applications, ensuring their safety using guardrails remains a key challenge. This paper proposes GuardReasoner, a new safeguard for LLMs, by guiding the guard model to learn to reason. Concretely, we first create the GuardReasonerTrain dataset, which consists of 127K samples with 460K detailed reasoning steps. Then, we introduce reasoning SFT to unlock the reasoning capability of guard models. In addition, we present hard sample DPO to further strengthen their reasoning ability. In this manner, GuardReasoner achieves better performance, explainability, and generalizability. Extensive experiments and analyses on 13 benchmarks of 3 guardrail tasks demonstrate its superiority. Remarkably, GuardReasoner 8B surpasses GPT-4o+CoT by 5.74% and LLaMA Guard 3 8B by 20.84% F1 score on average. We release the training data, code, and models with different scales (1B, 3B, 8B) of GuardReasoner : https://github.com/yueliu1999/GuardReasoner/.
- Abstract(参考訳): LLMが安全クリティカルなアプリケーションにますます影響を及ぼす中、ガードレールを使用した安全確保は依然として重要な課題である。
本稿では,LLMの新たなセーフガードであるガードレーソナーを提案する。
具体的には、まずGuardReasonerTrainデータセットを作成します。
次に、ガードモデルの推論能力を解き放つための推論SFTを導入する。
さらに, その推論能力を高めるため, ハードサンプルDPOを提案する。
このように、GuardReasonerはより良いパフォーマンス、説明可能性、一般化性を達成する。
3つのガードレールタスクの13のベンチマークに関する大規模な実験と分析は、その優位性を示している。
注目すべきは、GuardReasoner 8B が GPT-4o+CoT を5.74%、LLaMA Guard 3 8B が20.84% で上回ったことだ。
GuardReasoner:https://github.com/yueliu1999/GuardReasoner/。
関連論文リスト
- Efficient Safety Retrofitting Against Jailbreaking for LLMs [0.4711628883579317]
直接選好最適化 (DPO) は, 選好データに基づく学習により, LLM を好ましい出力に向けて操る, 効率的なアライメント手法である。
本稿では,データ要求とトレーニングコストを最小限に抑えつつ,DPOの脱獄攻撃に対するモデル安全性の有効性について検討する。
論文 参考訳(メタデータ) (2025-02-19T10:33:18Z) - ThinkGuard: Deliberative Slow Thinking Leads to Cautious Guardrails [33.96886111900147]
ThinkGuardは、高容量言語モデルから知識を抽出する、批判的な拡張されたガードレールモデルである。
平均的なF1とAUPRCを達成し、全てのベースラインを上回ります。
ラベルのみの微調整モデルを超え、構造化された批評によって分類精度とニュアンス付き安全推論の両方が向上することを確認した。
論文 参考訳(メタデータ) (2025-02-19T06:09:58Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - $R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning [8.408258504178718]
既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。
R2$-Guardは,知識を付加した論理的推論を通した堅牢なLLMガードレールである。
R2$-GuardはSoTAメソッドのLlamaGuardをToxicChatで30.2%、Jailbreak攻撃で59.5%を大きく上回っている。
論文 参考訳(メタデータ) (2024-07-08T02:15:29Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - Revisiting Personalized Federated Learning: Robustness Against Backdoor
Attacks [53.81129518924231]
pFLフレームワークにおけるバックドア攻撃の最初の研究を行う。
モデル共有部分を持つpFL法は,バックドア攻撃に対するロバスト性を大幅に向上させることができることを示す。
本稿では,バックドア攻撃に対する防御性能を実証的に向上する軽量防御手法Simple-Tuningを提案する。
論文 参考訳(メタデータ) (2023-02-03T11:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。