論文の概要: ReasoningShield: Content Safety Detection over Reasoning Traces of Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.17244v1
- Date: Thu, 22 May 2025 19:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.672374
- Title: ReasoningShield: Content Safety Detection over Reasoning Traces of Large Reasoning Models
- Title(参考訳): ReasoningShield:大規模なReasoning ModelのReasoning Traceによるコンテンツ安全性検出
- Authors: Changyi Li, Jiayi Wang, Xudong Pan, Geng Hong, Min Yang,
- Abstract要約: 推論モデル(LRM)は、高度な推論機能を備えたAIのランドスケープを変革している。
生成された推論トレースはモデルの透明性を高めるが、最終的な回答が安全に見える場合でも、安全でないコンテンツを含むことができる。
既存のモデレーションツールは、主に質問応答(QA)ペア用に設計されており、推論トレースに埋め込まれた隠れリスクを検出するのに経験的に効果がない。
最終回答に到達する前に、推論トレースの潜在的なリスクを特定するために調整された、最初の安全検出モデルであるReasoningShieldを提案する。
- 参考スコア(独自算出の注目度): 19.963759799471568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) are transforming the AI landscape with advanced reasoning capabilities. While the generated reasoning traces enhance model transparency, they can still contain unsafe content, even when the final answer appears safe. Existing moderation tools, primarily designed for question-answer (QA) pairs, are empirically ineffective at detecting hidden risks embedded in reasoning traces. After identifying the key challenges, we formally define the question-thought (QT) moderation task and propose ReasoningShield, the first safety detection model tailored to identify potential risks in the reasoning trace before reaching the final answer. To construct the model, we synthesize a high-quality reasoning safety detection dataset comprising over 8,000 question-thought pairs spanning ten risk categories and three safety levels. Our dataset construction process incorporates a comprehensive human-AI collaborative annotation pipeline, which achieves over 93% annotation accuracy while significantly reducing human costs. On a diverse set of in-distribution and out-of-distribution benchmarks, ReasoningShield outperforms mainstream content safety moderation models in identifying risks within reasoning traces, with an average F1 score exceeding 0.92. Notably, despite being trained on our QT dataset only, ReasoningShield also demonstrates competitive performance in detecting unsafe question-answer pairs on traditional benchmarks, rivaling baselines trained on 10 times larger datasets and base models, which strongly validates the quality of our dataset. Furthermore, ReasoningShield is built upon compact 1B/3B base models to facilitate lightweight deployment and provides human-friendly risk analysis by default. To foster future research, we publicly release all the resources.
- Abstract(参考訳): 大規模推論モデル(LRM)は、高度な推論機能を備えたAIのランドスケープを変革している。
生成された推論トレースはモデルの透明性を高めるが、最終的な回答が安全に見える場合でも、安全でないコンテンツを含むことができる。
既存のモデレーションツールは、主に質問応答(QA)ペア用に設計されており、推論トレースに埋め込まれた隠れリスクを検出するのに経験的に効果がない。
重要な課題を特定した上で,質問思考(QT)モデレーションタスクを正式に定義し,最終回答に到達する前に,推論トレースの潜在的なリスクを特定するための最初の安全検出モデルであるReasoningShieldを提案する。
このモデルを構築するために,10のリスクカテゴリと3つの安全性レベルにまたがる8000以上の質問対からなる高品質な推論安全検出データセットを合成した。
データセット構築プロセスには、包括的な人間-AI協調アノテーションパイプラインが組み込まれており、人間のコストを大幅に削減しつつ、93%以上のアノテーション精度を実現している。
ReasoningShieldは、分布内および分布外ベンチマークの多種多様なセットにおいて、推論トレース内のリスクを識別する主要なコンテンツ安全性モデレーションモデルより優れており、平均F1スコアは0.92を超えている。
特に、私たちのQTデータセットのみでトレーニングされているにもかかわらず、ReasoningShield氏は、従来のベンチマークで安全でない質問と回答のペアを検出する上で、競争力のあるパフォーマンスを示している。
さらにReasoningShieldは,軽量なデプロイメントを容易にするために,コンパクトな1B/3Bベースモデル上に構築されている。
今後の研究を促進するため、我々はすべての資源を公開している。
関連論文リスト
- Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - A Survey on Uncertainty Toolkits for Deep Learning [3.113304966059062]
ディープラーニング(DL)における不確実性推定のためのツールキットに関する第1回調査について述べる。
モデリングおよび評価能力に関する11のツールキットについて検討する。
最初の2つは、それぞれのフレームワークに大きな柔軟性とシームレスな統合を提供するが、最後の2つは、より大きな方法論的スコープを持っている。
論文 参考訳(メタデータ) (2022-05-02T17:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。