論文の概要: PSRT: Accelerating LRM-based Guard Models via Prefilled Safe Reasoning Traces
- arxiv url: http://arxiv.org/abs/2509.21768v1
- Date: Fri, 26 Sep 2025 02:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.123618
- Title: PSRT: Accelerating LRM-based Guard Models via Prefilled Safe Reasoning Traces
- Title(参考訳): PSRT: 準備されたセーフ推論トレースによるLRMベースのガードモデルの高速化
- Authors: Jiawei Zhao, Yuang Qi, Weiming Zhang, Nenghai Yu, Kejiang Chen,
- Abstract要約: 提案手法では,PSRT をモデル推論プロセスから Prefilled Safe Reasoning Trace に置き換える手法を紹介する。
PSRTは構築されたデータセットから“仮想トークンの安全な推論”をプリフィルし、継続的な埋め込みについて学習する。
我々は,PSRTを7つのモデル,13のデータセット,8つのジェイルブレイク法で評価した。
- 参考スコア(独自算出の注目度): 81.70980843006681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated remarkable performance on tasks such as mathematics and code generation. Motivated by these strengths, recent work has empirically demonstrated the effectiveness of LRMs as guard models in improving harmful query detection. However, LRMs typically generate long reasoning traces during inference, causing substantial computational overhead. In this paper, we introduce PSRT, a method that replaces the model's reasoning process with a Prefilled Safe Reasoning Trace, thereby significantly reducing the inference cost of LRMs. Concretely, PSRT prefills "safe reasoning virtual tokens" from a constructed dataset and learns over their continuous embeddings. With the aid of indicator tokens, PSRT enables harmful-query detection in a single forward pass while preserving the classification effectiveness of LRMs. We evaluate PSRT on 7 models, 13 datasets, and 8 jailbreak methods. In terms of efficiency, PSRT completely removes the overhead of generating reasoning tokens during inference. In terms of classification performance, PSRT achieves nearly identical accuracy, with only a minor average F1 drop of 0.015 across 7 models and 5 datasets.
- Abstract(参考訳): 大規模推論モデル (LRM) は数学やコード生成といったタスクにおいて顕著な性能を発揮している。
これらの強みに感銘を受けた最近の研究は、有害なクエリ検出を改善するためのガードモデルとしてLRMの有効性を実証的に実証している。
しかし、LEMは推論中に長い推論トレースを生成し、かなりの計算オーバーヘッドを引き起こす。
そこで本論文では,モデル推論処理をプリフィルドセーフ推論トレースに置き換える手法であるPSRTを導入し,LRMの推論コストを大幅に削減する。
具体的には、PSRTは構築されたデータセットから“仮想トークンの安全な推論”をプリフィルし、継続的な埋め込みについて学習する。
指標トークンの助けを借りて、PSRT は LRM の分類の有効性を保ちながら、単一の前方通過において有害なクエリ検出を可能にする。
我々は,PSRTを7つのモデル,13のデータセット,8つのジェイルブレイク法で評価した。
効率の面では、PSRTは推論中に推論トークンを生成するオーバーヘッドを完全に取り除きます。
分類性能の面では、PSRTはほぼ同じ精度を達成しており、7つのモデルと5つのデータセットで平均で0.015のF1ドロップしか達成していない。
関連論文リスト
- Inducing Faithfulness in Structured Reasoning via Counterfactual Sensitivity [6.908972852063454]
大規模言語モデルは、欠陥や無関係な推論トレースに依存しながら、正しい答えを生成することが多い。
本稿では,新しい学習目標であるtextbfCounterfactual Sensitivity Regularization (CSR)を紹介する。
CSRは、標準的な微調整とプロセスの監督に対する忠実度を最大70パーセント向上させる。
論文 参考訳(メタデータ) (2025-09-01T15:18:46Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Reasoning Model Unlearning: Forgetting Traces, Not Just Answers, While Preserving Reasoning Skills [32.96074934023323]
大きな推論モデル(LRM)は、テスト時間計算を通じて強力なチェーン・オブ・シント(CoT)生成を可能にした。
従来の未学習アルゴリズムは、もともと非推論モデル用に設計されていたが、LRMには不適当であることを示す。
本稿では,意味のある推論トレースを効果的に抑制する新しい手法であるReasoning-aware Representation Misdirection for Unlearning(R2MU$)を提案する。
論文 参考訳(メタデータ) (2025-06-15T20:54:23Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。