論文の概要: Safety Instincts: LLMs Learn to Trust Their Internal Compass for Self-Defense
- arxiv url: http://arxiv.org/abs/2510.01088v1
- Date: Wed, 01 Oct 2025 16:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.668977
- Title: Safety Instincts: LLMs Learn to Trust Their Internal Compass for Self-Defense
- Title(参考訳): 安全本能:LLMは自給自足のための内部コンパスを信頼することを学ぶ
- Authors: Guobin Shen, Dongcheng Zhao, Haibo Tong, Jindong Li, Feifei Zhao, Yi Zeng,
- Abstract要約: 安全本能強化学習(SIRL: Safety Instincts Reinforcement Learning)は、低エントロピーの拒絶行動を強化することによって、モデルの安全性本能を信頼することを教える。
SIRLは、数学、コーディング、会話ベンチマークのパフォーマンスを保ちながら、リソース集約型の管理手法を超越している。
私たちの研究は、効果的なアライメントが内部から現れ、より自律的で堅牢なAI安全メカニズムへの道を開くことを実証しています。
- 参考スコア(独自算出の注目度): 18.76559643474756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring Large Language Model (LLM) safety remains challenging due to the absence of universal standards and reliable content validators, making it difficult to obtain effective training signals. We discover that aligned models already possess robust internal safety beliefs: they consistently produce high-confidence refusals to harmful requests while exhibiting high entropy when generating potentially dangerous content. This entropy gap reveals an untapped signal--models intrinsically "know" when to refuse. We introduce Safety Instincts Reinforcement Learning (SIRL), which transforms this internal confidence into a self-generated reward signal, eliminating dependence on external validators or human annotations. SIRL teaches models to trust their safety instincts by reinforcing low-entropy refusal behaviors. Evaluated on Llama and Qwen models, SIRL maintains 89%+ Defense Success Rates (DSRs) against 20+ jailbreak methods, from static prompts to adaptive attacks. Using only 15,000 unlabeled prompts, SIRL surpasses resource-intensive supervised methods while preserving performance on mathematics, coding, and conversation benchmarks. Our work demonstrates that effective alignment can emerge from within, paving the way for more autonomous and robust AI safety mechanisms that scale without extensive human oversight.
- Abstract(参考訳): 広範言語モデル(LLM)の安全性の確保は、普遍的な標準や信頼性の高いコンテンツバリデータがないために依然として困難であり、効果的なトレーニング信号を得るのが困難である。
有害な要求に対する信頼性の高い拒絶を常に生成し、潜在的に危険なコンテンツを生成する際に高いエントロピーを示す。
このエントロピーギャップは、未解決の信号--モデルが本質的に、拒否するタイミングを「知る」ことを明らかにする。
SIRL(Safety Instincts Reinforcement Learning)を導入し、内部の信頼度を自己生成報酬信号に変換し、外部のバリデータや人間のアノテーションへの依存をなくす。
SIRLは、低エントロピーの拒絶行動を強化することによって、モデルに安全性の本能を信頼するように教える。
LlamaとQwenモデルに基づいて評価すると、SIRLは静的プロンプトから適応攻撃まで、20以上のジェイルブレイク手法に対して89%以上の防衛成功率(DSR)を維持している。
ラベルなしのプロンプトはわずか15,000で、SIRLはリソース集約的な教師付き手法を超越し、数学、コーディング、会話ベンチマークのパフォーマンスを保っている。
私たちの研究は、効果的なアライメントが内部から現れ、より自律的で堅牢なAI安全メカニズムが、人間の監視なしに拡張できることを示しています。
関連論文リスト
- AlphaAlign: Incentivizing Safety Alignment with Extremely Simplified Reinforcement Learning [21.399086197886202]
大規模言語モデル(LLM)は、膨大な事前学習データから潜伏した安全性の理解を持っている。
安全報酬を検証可能な純粋強化学習フレームワークである textbfAlphaAlign を提案する。
これにより、モデルは、監督された安全固有の推論データに依存することなく、積極的に安全推論機能を開発することができる。
論文 参考訳(メタデータ) (2025-07-20T14:47:03Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。