論文の概要: ReasoningShield: Safety Detection over Reasoning Traces of Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.17244v2
- Date: Wed, 15 Oct 2025 11:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.597286
- Title: ReasoningShield: Safety Detection over Reasoning Traces of Large Reasoning Models
- Title(参考訳): 共振シールド:大型共振モデルの共振トレースによる安全検出
- Authors: Changyi Li, Jiayi Wang, Xudong Pan, Geng Hong, Min Yang,
- Abstract要約: ReasoningShieldは、Large Reasoning Models (LRMs)におけるChain-of-Thoughts (CoTs)をモデレートするためのフレームワークである
ReasoningShieldは最新のパフォーマンスを実現し、LlamaGuard-4のようなタスク固有のツールを35.6%、GPT-4oのような汎用商用モデルを15.8%向上させた。
- 参考スコア(独自算出の注目度): 20.274878511727945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) leverage transparent reasoning traces, known as Chain-of-Thoughts (CoTs), to break down complex problems into intermediate steps and derive final answers. However, these reasoning traces introduce unique safety challenges: harmful content can be embedded in intermediate steps even when final answers appear benign. Existing moderation tools, designed to handle generated answers, struggle to effectively detect hidden risks within CoTs. To address these challenges, we introduce ReasoningShield, a lightweight yet robust framework for moderating CoTs in LRMs. Our key contributions include: (1) formalizing the task of CoT moderation with a multi-level taxonomy of 10 risk categories across 3 safety levels, (2) creating the first CoT moderation benchmark which contains 9.2K pairs of queries and reasoning traces, including a 7K-sample training set annotated via a human-AI framework and a rigorously curated 2.2K human-annotated test set, and (3) developing a two-stage training strategy that combines stepwise risk analysis and contrastive learning to enhance robustness. Experiments show that ReasoningShield achieves state-of-the-art performance, outperforming task-specific tools like LlamaGuard-4 by 35.6% and general-purpose commercial models like GPT-4o by 15.8% on benchmarks, while also generalizing effectively across diverse reasoning paradigms, tasks, and unseen scenarios. All resources are released at https://github.com/CosmosYi/ReasoningShield.
- Abstract(参考訳): 大型推論モデル(LRMs)は、Chain-of-Thoughts(CoTs)として知られる透明な推論トレースを活用し、複雑な問題を中間ステップに分解し、最終的な答えを導出する。
有害なコンテンツは、最終回答が良さそうであっても中間段階に埋め込むことができる。
生成された回答を処理するために設計された既存のモデレーションツールは、CoT内に隠されたリスクを効果的に検出するのに苦労している。
これらの課題に対処するために、LRMでCoTをモデレートするための軽量で堅牢なフレームワークであるReasoningShieldを紹介します。
主な貢献は、(1)CoTモデレーションのタスクを3つの安全レベルにわたる10のリスクカテゴリのマルチレベル分類でフォーマル化すること、(2)AIフレームワークを介して注釈付けされた7Kサンプルトレーニングセットと厳格にキュレートされた2.2K人間アノテーションテストセットを含む9.2Kのクエリと推論トレースを含む最初のCoTモデレーションベンチマークを作成すること、(3)段階的にリスク分析と対照的な学習を組み合わせた2段階のトレーニング戦略を開発することである。
実験により、ReasoningShieldは、LlamaGuard-4のようなタスク固有のツールを35.6%、GPT-4oのような汎用の商用モデルを15.8%向上させ、様々な推論パラダイム、タスク、目に見えないシナリオを効果的に一般化する。
すべてのリソースはhttps://github.com/CosmosYi/ReasoningShieldでリリースされる。
関連論文リスト
- Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.569220030102986]
textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。
19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。
我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文 参考訳(メタデータ) (2025-05-26T08:49:19Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - A Survey on Uncertainty Toolkits for Deep Learning [3.113304966059062]
ディープラーニング(DL)における不確実性推定のためのツールキットに関する第1回調査について述べる。
モデリングおよび評価能力に関する11のツールキットについて検討する。
最初の2つは、それぞれのフレームワークに大きな柔軟性とシームレスな統合を提供するが、最後の2つは、より大きな方法論的スコープを持っている。
論文 参考訳(メタデータ) (2022-05-02T17:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。