論文の概要: Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.25412v1
- Date: Thu, 26 Mar 2026 13:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.305276
- Title: Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models
- Title(参考訳): コンテンツの安全性を超えて:大規模言語モデルにおける推論脆弱性のリアルタイムモニタリング
- Authors: Xunguang Wang, Yuguang Zhou, Qingyue Wang, Zongjie Li, Ruixuan Huang, Zhenlan Ji, Pingchuan Ma, Shuai Wang,
- Abstract要約: 大規模言語モデルは、複雑なタスクを解決するために明示的なチェーン・オブ・シンク(CoT)推論にますます依存している。
LLMの安全性に関する既存の研究は、コンテンツ安全性に焦点を当てている。
我々は、推論の安全性をセキュリティの側面として認識する:モデルの推論の軌道が論理的に一貫したものであるという要求。
- 参考スコア(独自算出の注目度): 14.927545906619295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly rely on explicit chain-of-thought (CoT) reasoning to solve complex tasks, yet the safety of the reasoning process itself remains largely unaddressed. Existing work on LLM safety focuses on content safety--detecting harmful, biased, or factually incorrect outputs -- and treats the reasoning chain as an opaque intermediate artifact. We identify reasoning safety as an orthogonal and equally critical security dimension: the requirement that a model's reasoning trajectory be logically consistent, computationally efficient, and resistant to adversarial manipulation. We make three contributions. First, we formally define reasoning safety and introduce a nine-category taxonomy of unsafe reasoning behaviors, covering input parsing errors, reasoning execution errors, and process management errors. Second, we conduct a large-scale prevalence study annotating 4111 reasoning chains from both natural reasoning benchmarks and four adversarial attack methods (reasoning hijacking and denial-of-service), confirming that all nine error types occur in practice and that each attack induces a mechanistically interpretable signature. Third, we propose a Reasoning Safety Monitor: an external LLM-based component that runs in parallel with the target model, inspects each reasoning step in real time via a taxonomy-embedded prompt, and dispatches an interrupt signal upon detecting unsafe behavior. Evaluation on a 450-chain static benchmark shows that our monitor achieves up to 84.88\% step-level localization accuracy and 85.37\% error-type classification accuracy, outperforming hallucination detectors and process reward model baselines by substantial margins. These results demonstrate that reasoning-level monitoring is both necessary and practically achievable, and establish reasoning safety as a foundational concern for the secure deployment of large reasoning models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なタスクを解決するための明示的なチェーン・オブ・シンク(CoT)推論にますます依存している。
LLMの安全性に関する既存の研究は、有害、偏り、または事実的に誤ったアウトプットを検出するコンテンツ安全性に焦点を当てており、推論チェーンを不透明な中間成果物として扱う。
我々は、推論の安全性を直交的かつ等しく重要なセキュリティの次元として識別する:モデルの推論の軌道は論理的に一貫性があり、計算的に効率的であり、敵の操作に耐性があるという要求である。
私たちは3つの貢献をします。
まず、推論安全性を正式に定義し、入力解析エラー、実行エラーの推論、プロセス管理エラーを網羅した、安全でない推論行動の9つのカテゴリの分類を導入します。
第2に、自然推論ベンチマークと4つの逆攻撃方法(ハイジャックとサービス拒否)から4111の推論チェーンを注釈付けした大規模精度調査を行い、9種類のエラーが実際に発生し、各攻撃が機械的に解釈可能なシグネチャを誘導することを確認した。
第3に、ターゲットモデルと並行して動作する外部LCMベースのコンポーネントであるReasoning Safety Monitorを提案し、分類学的埋め込みプロンプトを介して各推論ステップをリアルタイムで検査し、安全でない振る舞いを検出する割り込み信号を送信する。
450チェーンの静的ベンチマークによる評価の結果,最大84.88 %のステップレベルの局所化精度と85.37 %の誤差型分類精度,幻覚検出器の性能向上,およびプロセス報酬モデルベースラインをかなりのマージンで達成した。
これらの結果から, 推論レベルのモニタリングは必要かつ現実的に達成可能であることが示され, 大規模推論モデルの安全な展開の基盤となる推論安全性が確立された。
関連論文リスト
- TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。