論文の概要: FuSaR: A Fuzzification-Based Method for LRM Safety-Reasoning Balance
- arxiv url: http://arxiv.org/abs/2508.12897v1
- Date: Mon, 18 Aug 2025 12:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.346452
- Title: FuSaR: A Fuzzification-Based Method for LRM Safety-Reasoning Balance
- Title(参考訳): FuSaR: LRM安全推論バランスのためのファジフィケーションベース手法
- Authors: Jianhao Chen, Mayi Xu, Xiaohu Li, Yongqi Li, Xiangyu Zhang, Jianjie Huang, Tieyun Qian,
- Abstract要約: 大規模推論モデル(LRM)は、その強力な推論能力のために、様々なタスクにまたがって印象的な性能を誇示している。
推論能力を犠牲にすることなく, LLMの安全性を向上させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 16.657840274027958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated impressive performance across various tasks due to their powerful reasoning capabilities. However, their safety performance remains a significant concern. In this paper, we explore the reasons behind the vulnerability of LRMs. Based on this, we propose a novel method to improve the safety of LLMs without sacrificing their reasoning capability. Specifically, we exploit the competition between LRM's reasoning ability and safety ability, and achieve jailbreak by improving LRM's reasoning performance to reduce its safety performance. We then introduce an alignment strategy based on Fuzzification to balance Safety-Reasoning (FuSaR), by detoxifying the harmful reasoning process, where both the dangerous entities and the dangerous procedures in the reasoning steps are hidden. FuSaR successfully mitigates safety risks while preserving core reasoning information. We validate this strategy through alignment experiments on several open-source LRMs using detoxified reasoning data. The results compared with existing baselines conclusively show that FuSaR is an efficient alignment strategy to simultaneously enhance both the reasoning capability and safety of LRMs.
- Abstract(参考訳): 大規模推論モデル(LRM)は、その強力な推論能力のために、様々なタスクにまたがって印象的な性能を誇示している。
しかし、その安全性は依然として大きな懸念点である。
本稿では, LRMの脆弱性の背景にある理由を考察する。
そこで本研究では,LLMの安全性向上のための新しい手法を提案する。
具体的には, LRMの推論能力と安全性の競争を利用して, LRMの推論性能を改善し, 安全性の向上を図る。
次に、危険物質と危険手順の両方が隠蔽される有害な推論過程を緩和することにより、安全推論(FuSaR)のバランスをとるためのファジフィケーションに基づくアライメント戦略を導入する。
FuSaRは、コア推論情報を保持しながら、安全性のリスクを軽減する。
我々はこの戦略を,解毒的推論データを用いて,複数のオープンソースLEM上でのアライメント実験により検証する。
その結果, 既存のベースラインと比較すると, FuSaRは推理能力と安全性を同時に向上する効率的なアライメント戦略であることがわかった。
関連論文リスト
- ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。
我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。
トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文 参考訳(メタデータ) (2025-06-06T18:05:45Z) - How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study [90.34190170330481]
大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。
しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。
スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
論文 参考訳(メタデータ) (2025-05-21T11:45:29Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable [7.140765245328677]
安全アライメントは、大規模言語モデルが公式にデプロイされる前に重要な手順である。
シーケンシャルなLRM生産パイプラインでは、推論と安全性のトレードオフがあることが示されている。
副産物として、安全アライメントのための代替データセットとして機能する、DirectRefusalと呼ばれるデータセットをキュレートします。
論文 参考訳(メタデータ) (2025-03-01T16:42:01Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。