論文の概要: FuSaR: A Fuzzification-Based Method for LRM Safety-Reasoning Balance
- arxiv url: http://arxiv.org/abs/2508.12897v1
- Date: Mon, 18 Aug 2025 12:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.346452
- Title: FuSaR: A Fuzzification-Based Method for LRM Safety-Reasoning Balance
- Title(参考訳): FuSaR: LRM安全推論バランスのためのファジフィケーションベース手法
- Authors: Jianhao Chen, Mayi Xu, Xiaohu Li, Yongqi Li, Xiangyu Zhang, Jianjie Huang, Tieyun Qian,
- Abstract要約: 大規模推論モデル(LRM)は、その強力な推論能力のために、様々なタスクにまたがって印象的な性能を誇示している。
推論能力を犠牲にすることなく, LLMの安全性を向上させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 16.657840274027958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated impressive performance across various tasks due to their powerful reasoning capabilities. However, their safety performance remains a significant concern. In this paper, we explore the reasons behind the vulnerability of LRMs. Based on this, we propose a novel method to improve the safety of LLMs without sacrificing their reasoning capability. Specifically, we exploit the competition between LRM's reasoning ability and safety ability, and achieve jailbreak by improving LRM's reasoning performance to reduce its safety performance. We then introduce an alignment strategy based on Fuzzification to balance Safety-Reasoning (FuSaR), by detoxifying the harmful reasoning process, where both the dangerous entities and the dangerous procedures in the reasoning steps are hidden. FuSaR successfully mitigates safety risks while preserving core reasoning information. We validate this strategy through alignment experiments on several open-source LRMs using detoxified reasoning data. The results compared with existing baselines conclusively show that FuSaR is an efficient alignment strategy to simultaneously enhance both the reasoning capability and safety of LRMs.
- Abstract(参考訳): 大規模推論モデル(LRM)は、その強力な推論能力のために、様々なタスクにまたがって印象的な性能を誇示している。
しかし、その安全性は依然として大きな懸念点である。
本稿では, LRMの脆弱性の背景にある理由を考察する。
そこで本研究では,LLMの安全性向上のための新しい手法を提案する。
具体的には, LRMの推論能力と安全性の競争を利用して, LRMの推論性能を改善し, 安全性の向上を図る。
次に、危険物質と危険手順の両方が隠蔽される有害な推論過程を緩和することにより、安全推論(FuSaR)のバランスをとるためのファジフィケーションに基づくアライメント戦略を導入する。
FuSaRは、コア推論情報を保持しながら、安全性のリスクを軽減する。
我々はこの戦略を,解毒的推論データを用いて,複数のオープンソースLEM上でのアライメント実験により検証する。
その結果, 既存のベースラインと比較すると, FuSaRは推理能力と安全性を同時に向上する効率的なアライメント戦略であることがわかった。
関連論文リスト
- Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models [63.368505631152594]
安全調整は、大きな推論モデル(LRM)の一般的な推論能力を乱す安全税を発生させる。
LRMの安全アライメントに使われる既存のデータセットは、通常、外部のLRMまたは人間のラベルから安全推論の痕跡と回答を蒸留することによって構築される。
本稿では,DGRと呼ばれる安全アライメントデータセット構築手法を提案する。DGRは,既存のアウト・オブ・ディストリビューション型安全推論データセットを改良し,目標のLLM内部分布に適合させる。
論文 参考訳(メタデータ) (2026-02-02T14:18:48Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。
我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。
トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文 参考訳(メタデータ) (2025-06-06T18:05:45Z) - How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study [90.34190170330481]
大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。
しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。
スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
論文 参考訳(メタデータ) (2025-05-21T11:45:29Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable [7.140765245328677]
安全アライメントは、大規模言語モデルが公式にデプロイされる前に重要な手順である。
シーケンシャルなLRM生産パイプラインでは、推論と安全性のトレードオフがあることが示されている。
副産物として、安全アライメントのための代替データセットとして機能する、DirectRefusalと呼ばれるデータセットをキュレートします。
論文 参考訳(メタデータ) (2025-03-01T16:42:01Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。