論文の概要: STAR-S: Improving Safety Alignment through Self-Taught Reasoning on Safety Rules
- arxiv url: http://arxiv.org/abs/2601.03537v1
- Date: Wed, 07 Jan 2026 03:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.120981
- Title: STAR-S: Improving Safety Alignment through Self-Taught Reasoning on Safety Rules
- Title(参考訳): STAR-S:安全ルールに基づく自己学習による安全アライメントの改善
- Authors: Di Wu, Yanyan Zhao, Xin Lu, Mingzhe Li, Bing Qin,
- Abstract要約: 大規模言語モデルの安全なデプロイには、ジェイルブレイク攻撃に対する防御が不可欠だ。
textbfSTAR-S (textbfSelf-textbfTAught textbfReasoning based on textbfSafety rules) は、安全規則の学習を自己学習ループに統合するフレームワークである。
- 参考スコア(独自算出の注目度): 44.32746122145099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Defending against jailbreak attacks is crucial for the safe deployment of Large Language Models (LLMs). Recent research has attempted to improve safety by training models to reason over safety rules before responding. However, a key issue lies in determining what form of safety reasoning effectively defends against jailbreak attacks, which is difficult to explicitly design or directly obtain. To address this, we propose \textbf{STAR-S} (\textbf{S}elf-\textbf{TA}ught \textbf{R}easoning based on \textbf{S}afety rules), a framework that integrates the learning of safety rule reasoning into a self-taught loop. The core of STAR-S involves eliciting reasoning and reflection guided by safety rules, then leveraging fine-tuning to enhance safety reasoning. Repeating this process creates a synergistic cycle. Improvements in the model's reasoning and interpretation of safety rules allow it to produce better reasoning data under safety rule prompts, which is then utilized for further training. Experiments show that STAR-S effectively defends against jailbreak attacks, outperforming baselines. Code is available at: https://github.com/pikepokenew/STAR_S.git.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全なデプロイには、ジェイルブレイク攻撃に対する防御が不可欠だ。
近年の研究では、安全ルールを判断するトレーニングモデルによる安全性の向上が試みられている。
しかし、重要な問題は、どの形態の安全推論がジェイルブレイク攻撃に対して効果的に防御するかを決定することである。
そこで,本稿では,安全ルールの学習を自己学習ループに統合するフレームワークである \textbf{STAR-S} (\textbf{S}elf-\textbf{TA}ught \textbf{R}easoning を提案する。
STAR-Sの中核は、安全規則で導かれる推論と反射を抽出し、微調整を利用して安全性の推論を強化することである。
この過程を繰り返すと、相乗的サイクルが生じる。
モデルの推論と安全性ルールの解釈の改善により、安全規則のプロンプトの下でより良い推論データを生成し、さらなるトレーニングに利用することができる。
実験の結果、STAR-Sはジェイルブレイク攻撃を効果的に防御し、ベースラインを上回ります。
コードは、https://github.com/pikepokenew/STAR_S.git.comで入手できる。
関連論文リスト
- Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - UnsafeChain: Enhancing Reasoning Model Safety via Hard Cases [57.69882799751655]
さまざまなソースを持つハードプロンプトから構築された安全アライメントデータセットであるUnsafeChainをリリースする。
我々は3つの大きな推論モデル(LRM)を微調整し、それらを最近のSafeChainとSTAR-1と比較する。
UnsafeChainは、1Kサブセットのマッチングやベースラインのパフォーマンスを越えながら、従来よりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-07-29T10:08:52Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Reasoning as an Adaptive Defense for Safety [44.78731851555853]
私たちは、$textitTARS$(安全のための適応推論器の訓練)というレシピを構築します。
我々は、チェーンオブソートトレースと、タスク完了と安全のバランスをとる報奨信号を用いて、安全性について推論するモデルを訓練する。
我々の研究は,lLMをジェイルブレイクや有害な要求に対して,プロンプトごとに推論することで,効果的かつオープンなレシピを提供する。
論文 参考訳(メタデータ) (2025-07-01T17:20:04Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。