論文の概要: Finding and Reactivating Post-Trained LLMs' Hidden Safety Mechanisms
- arxiv url: http://arxiv.org/abs/2604.00012v1
- Date: Tue, 10 Mar 2026 06:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.188062
- Title: Finding and Reactivating Post-Trained LLMs' Hidden Safety Mechanisms
- Title(参考訳): 実験後LLMの隠れた安全機構の発見と再活性化
- Authors: Mingjie Li, Wai Man Si, Michael Backes, Yang Zhang, Yisen Wang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の安全性劣化の原因について検討する。
SafeReActと呼ばれる軽量で費用対効果の高いソリューションを提案する。
4種類のLEM実験の結果,提案手法は推論性能を損なうことなく有害なプロンプトの安全性を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 43.21675006313594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive performance of general-purpose large language models (LLMs), they often require fine-tuning or post-training to excel at specific tasks. For instance, large reasoning models (LRMs), such as the DeepSeek-R1 series, demonstrate strong reasoning capabilities after post-training different general large language models on diverse chain-of-thought (CoT) datasets. However, this additional training frequently comes at the cost of reduced safety, as the fine-tuned or post-trained models tend to exhibit more harmful behaviors compared with the regular LLMs before post-training or fine-tuning, potentially leading to harmful outcomes due to their enhanced capabilities. Taking LRMs as an example, we first investigate the underlying cause of this safety degradation in this paper. Our analysis reveals that post-training can mask the original safety mechanisms of the base LLM, while over-amplifying representations related to their post-training ability. But luckily, we also find that LRMs' safety mechanisms still exist instead of being removed during their post-training. Based on these findings, we propose a lightweight and cost-effective solution called SafeReAct that restores the suppressed safety behaviors by aligning with LoRA adapters on a few layers. Experiments on four state-of-the-art LRMs show that our method significantly improves safety on harmful prompts without compromising reasoning performance. Besides LRMs, additional results on other domain-specific LLMs, like medical models, further confirm the generality and effectiveness of our approach.
- Abstract(参考訳): 汎用大規模言語モデル(LLM)の印象的なパフォーマンスにもかかわらず、特定のタスクを最適化するためには、微調整やポストトレーニングが必要になることが多い。
例えば、DeepSeek-R1シリーズのような大きな推論モデル(LRM)は、さまざまなチェーン・オブ・シークレット(CoT)データセット上で、さまざまな一般的な大規模言語モデルをトレーニングした後、強力な推論能力を示す。
しかし、この追加訓練は、訓練後または訓練後のモデルが、訓練後または訓練後の通常のLCMよりも有害な振る舞いを示す傾向にあり、その能力の強化により有害な結果をもたらす可能性があるため、安全性の低下をしばしば伴う。
LRMを例として,本論文の安全性劣化の原因を最初に考察する。
本分析により,後トレーニング能力に関連のある過剰な表現を呈示しながら,後トレーニングがベースLLMの本来の安全性メカニズムを隠蔽できることが判明した。
しかし幸いなことに、LRMの安全メカニズムはポストトレーニング中に取り除かれるのではなく、まだ存在することがわかっています。
これらの知見に基づいて, SafeReAct と呼ばれる軽量で費用対効果の高いソリューションを提案する。
4種類のLEM実験の結果,提案手法は推論性能を損なうことなく有害なプロンプトの安全性を著しく向上することが示された。
LRMの他に、医療モデルのような他のドメイン固有LLMのさらなる成果は、我々のアプローチの一般化と有効性をさらに裏付けるものである。
関連論文リスト
- Beyond SFT: Reinforcement Learning for Safer Large Reasoning Models with Better Reasoning Ability [18.931331452604066]
大きな推論モデル(LRM)は、明らかにチェーン・オブ・シント(CoT)推論を生成することで、大きな言語モデルを拡張する。
既存の安全アライメントアプローチは、安全指向の長いCoTデータセットよりも教師付き微調整(SFT)に依存している。
LRM安全訓練のための補完的最適化フレームワークとして強化学習(RL)について検討する。
論文 参考訳(メタデータ) (2025-12-01T16:35:34Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - R1-ACT: Efficient Reasoning Model Safety Alignment by Activating Safety Knowledge [16.653490433862224]
LRMの安全性リスクの根本原因について検討し、モデルに既に十分な安全性知識があるが、推論中にそれを活性化できないことを発見した。
R1-Actは、構造的推論プロセスを通じて安全知識を明示的に引き起こす、シンプルで効率的なポストトレーニング手法である。
R1-Actは推論性能を保ちながら強力な安全性向上を実現し、事前アライメント手法よりも優れている。
論文 参考訳(メタデータ) (2025-08-01T05:14:13Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Chained Tuning Leads to Biased Forgetting [20.181135590652985]
下流タスクでトレーニングされたモデルは、反対の順序でトレーニングされたモデルよりもはるかに安全チューニングを忘れていることを示す。
忘れることが特定のグループの安全情報に悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-12-21T03:51:58Z) - Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-30T08:41:39Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。