論文の概要: RAPO: Risk-Aware Preference Optimization for Generalizable Safe Reasoning
- arxiv url: http://arxiv.org/abs/2602.04224v1
- Date: Wed, 04 Feb 2026 05:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.381175
- Title: RAPO: Risk-Aware Preference Optimization for Generalizable Safe Reasoning
- Title(参考訳): RAPO: 一般化可能な安全推論のためのリスク対応推論最適化
- Authors: Zeming Wei, Qiaosheng Zhang, Xia Hu, Xingcheng Xu,
- Abstract要約: 大規模推論モデル(LRM)は、そのチェーン・オブ・ソート(CoT)推論で大きな成功を収めた。
LRMは、多種多様な複雑なジェイルブレイク攻撃に対して一般化に失敗することが多い。
LRMが安全リスクを適応的に識別し対処することを可能にするRAPOフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.005437376731738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have achieved tremendous success with their chain-of-thought (CoT) reasoning, yet also face safety issues similar to those of basic language models. In particular, while algorithms are designed to guide them to deliberately refuse harmful prompts with safe reasoning, this process often fails to generalize against diverse and complex jailbreak attacks. In this work, we attribute these failures to the generalization of the safe reasoning process, particularly their insufficiency against complex attack prompts. We provide both theoretical and empirical evidence to show the necessity of a more sufficient safe reasoning process to defend against advanced attack prompts. Building on this insight, we propose a Risk-Aware Preference Optimization (RAPO) framework that enables LRM to adaptively identify and address the safety risks with appropriate granularity in its thinking content. Extensive experiments demonstrate that RAPO successfully generalizes multiple LRMs' safe reasoning adaptively across diverse attack prompts whilst preserving general utility, contributing a robust alignment technique for LRM safety. Our code is available at https://github.com/weizeming/RAPO.
- Abstract(参考訳): 大きな推論モデル(LRM)は、チェーン・オブ・ソート(CoT)推論で大きな成功を収めてきたが、基本的な言語モデルと同様の安全性の問題に直面している。
特に、アルゴリズムは安全推論で有害なプロンプトを故意に拒否するために設計されているが、このプロセスは多種多様な複雑なジェイルブレイク攻撃に対して一般化に失敗することが多い。
本研究は、これらの障害の原因として、安全な推論プロセスの一般化、特に複雑な攻撃プロンプトに対するそれらの不十分さを挙げる。
我々は,先進的な攻撃プロンプトに対する防御に十分な安全推論プロセスの必要性を示すため,理論的および実証的な証拠の両方を提供する。
この知見に基づいて, LRMが適切な粒度で安全リスクを適応的に識別し, 対処できるリスク・アウェア・プライス・オプティマイズ(RAPO)フレームワークを提案する。
大規模実験により、RAPOは汎用性を保ちながら様々な攻撃プロンプトに対して適応的に複数のLRMの安全推論を一般化し、LRM安全のための堅牢なアライメント技術に寄与することが示された。
私たちのコードはhttps://github.com/weizeming/RAPO.comで利用可能です。
関連論文リスト
- When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - ReasoningGuard: Safeguarding Large Reasoning Models with Inference-time Safety Aha Moments [18.198349215500183]
ReasoningGuardは、タイムリーな安全アハモーメントを注入し、無害な理由づけプロセスを実行します。
弊社のアプローチは、既存の7つの安全ガードを上回り、最先端の安全防衛を達成している。
論文 参考訳(メタデータ) (2025-08-06T08:35:10Z) - HauntAttack: When Attack Follows Reasoning as a Shadow [34.70760016394781]
本稿では,新規かつ汎用的なブラックボックス攻撃フレームワークHauntAttackを紹介する。
既存の質問における重要な推論条件を有害な指示で修正する。
攻撃成功率の平均は70%であり,最強のベースラインに対して最大12ポイントの絶対的改善を達成できた。
論文 参考訳(メタデータ) (2025-06-08T07:45:48Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。