論文の概要: Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance
- arxiv url: http://arxiv.org/abs/2506.06444v1
- Date: Fri, 06 Jun 2025 18:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.276634
- Title: Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance
- Title(参考訳): Saffron-1: LLM安全保証のための推論スケーリングパラダイムを目指して
- Authors: Ruizhong Qiu, Gaotang Li, Tianxin Wei, Jingrui He, Hanghang Tong,
- Abstract要約: SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。
我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。
トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
- 参考スコア(独自算出の注目度): 69.61130284742353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing safety assurance research has primarily focused on training-phase alignment to instill safe behaviors into LLMs. However, recent studies have exposed these methods' susceptibility to diverse jailbreak attacks. Concurrently, inference scaling has significantly advanced LLM reasoning capabilities but remains unexplored in the context of safety assurance. Addressing this gap, our work pioneers inference scaling for robust and effective LLM safety against emerging threats. We reveal that conventional inference scaling techniques, despite their success in reasoning tasks, perform poorly in safety contexts, even falling short of basic approaches like Best-of-N Sampling. We attribute this inefficiency to a newly identified challenge, the exploration--efficiency dilemma, arising from the high computational overhead associated with frequent process reward model (PRM) evaluations. To overcome this dilemma, we propose SAFFRON, a novel inference scaling paradigm tailored explicitly for safety assurance. Central to our approach is the introduction of a multifurcation reward model (MRM) that significantly reduces the required number of reward model evaluations. To operationalize this paradigm, we further propose: (i) a partial supervision training objective for MRM, (ii) a conservative exploration constraint to prevent out-of-distribution explorations, and (iii) a Trie-based key--value caching strategy that facilitates cache sharing across sequences during tree search. Extensive experiments validate the effectiveness of our method. Additionally, we publicly release our trained multifurcation reward model (Saffron-1) and the accompanying token-level safety reward dataset (Safety4M) to accelerate future research in LLM safety. Our code, model, and data are publicly available at https://github.com/q-rz/saffron , and our project homepage is at https://q-rz.github.io/p/saffron .
- Abstract(参考訳): 既存の安全保証研究は主に、LLMに安全な振る舞いを注入するためのトレーニングフェーズアライメントに焦点を当てている。
しかし、近年の研究では、様々なジェイルブレイク攻撃に対するこれらの方法の感受性が明らかにされている。
同時に、推論スケーリングはLLM推論能力を大幅に進歩させたが、安全保証の文脈では未検討のままである。
このギャップに対処するため、当社の先駆者は、新興脅威に対する堅牢で効果的なLLM安全性のためのスケーリングを推論しています。
従来の推論スケーリング手法は、推論タスクの成功にもかかわらず、安全性が悪く、Best-of-N Smplingのような基本的なアプローチが不足していることも明らかにした。
この非効率性は、頻繁なプロセス報酬モデル(PRM)評価に伴う高い計算オーバーヘッドから生じる、探索効率ジレンマという新たな課題に起因している。
このジレンマを克服するために,安全確保のための新しい推論スケーリングパラダイムであるSAFFRONを提案する。
我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。
このパラダイムを運用するために、我々はさらに提案する。
i) MRMのための部分的監督訓練目標
(二 配当外の探究を防止するための保守的な探究の制約、及び
(iii)ツリー検索中のシーケンス間のキャッシュ共有を容易にするTrieベースのキーバリューキャッシュ戦略。
大規模な実験により,本手法の有効性が検証された。
さらに,LLMの安全性に関する今後の研究を加速するために,トレーニングした多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開している。
私たちのコード、モデル、データはhttps://github.com/q-rz/saffronで公開されており、プロジェクトのホームページはhttps://q-rz.github.io/p/saffronです。
関連論文リスト
- Feasibility-Aware Pessimistic Estimation: Toward Long-Horizon Safety in Offline RL [14.767273209148545]
CVAEに基づくペシミズム(FASP)を用いたオフラインセーフ強化学習フレームワークを提案する。
我々はハミルトン・ヤコビ(H-J)リーチビリティ解析を用いて信頼性の高い安全ラベルを生成する。
また,報酬とコストのQ値の推定にも悲観的推定法を用いる。
論文 参考訳(メタデータ) (2025-05-13T02:32:49Z) - A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。
我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。
我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文 参考訳(メタデータ) (2025-02-14T08:42:43Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。