論文の概要: Evaluating the Safety and Skill Reasoning of Large Reasoning Models Under Compute Constraints
- arxiv url: http://arxiv.org/abs/2509.18382v1
- Date: Mon, 22 Sep 2025 20:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.561503
- Title: Evaluating the Safety and Skill Reasoning of Large Reasoning Models Under Compute Constraints
- Title(参考訳): 計算制約下における大規模推論モデルの安全性とスキル推論の評価
- Authors: Adarsha Balaji, Le Chen, Rajeev Thakur, Franck Cappello, Sandeep Madireddy,
- Abstract要約: テストタイムの計算スケーリングは、より長いチェーン・オブ・シークエンスを生成することにより、推論言語モデルの性能を向上させる能力を示している。
この性能向上は、計算コストの大幅な増加を伴う。
本研究では,2つの計算制約戦略について検討し,推論モデルの計算要求を低減し,それらの安全性への影響について検討する。
- 参考スコア(独自算出の注目度): 6.506004562943421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time compute scaling has demonstrated the ability to improve the performance of reasoning language models by generating longer chain-of-thought (CoT) sequences. However, this increase in performance comes with a significant increase in computational cost. In this work, we investigate two compute constraint strategies: (1) reasoning length constraint and (2) model quantization, as methods to reduce the compute demand of reasoning models and study their impact on their safety performance. Specifically, we explore two approaches to apply compute constraints to reasoning models: (1) fine-tuning reasoning models using a length controlled policy optimization (LCPO) based reinforcement learning method to satisfy a user-defined CoT reasoning length, and (2) applying quantization to maximize the generation of CoT sequences within a user-defined compute constraint. Furthermore, we study the trade-off between the computational efficiency and the safety of the model.
- Abstract(参考訳): テストタイムの計算スケーリングは、より長いチェーン・オブ・シークエンス(CoT)シーケンスを生成することにより、推論言語モデルの性能を向上させる能力を示している。
しかし、この性能向上は計算コストの大幅な増加を伴う。
本研究では,(1)長さ制約の推論と(2)モデル量子化の2つの計算制約戦略について検討する。
具体的には,(1)長さ制御ポリシ最適化(LCPO)に基づく強化学習手法を用いて,ユーザ定義のCoT推論長を満たす微調整推論モデル,(2)ユーザ定義の計算制約内でのCoTシーケンスの生成を最大化するための量子化の適用,の2つの方法を検討する。
さらに,計算効率とモデルの安全性のトレードオフについて検討する。
関連論文リスト
- LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization [48.91511514636768]
長長適応ポリシー最適化は、理論的長さ制御を外部制約から本質的なモデル能力に変換する。
LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。
数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
論文 参考訳(メタデータ) (2025-07-21T16:14:41Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - Efficient Knowledge Compilation Beyond Weighted Model Counting [7.828647825246474]
このような問題に対する一般的なフレームワークとして,第2レベル代数モデルカウント (2AMC) を導入している。
KC(Knowledge Compilation)に基づく第1レベルのテクニックは、変数順序制約を課すことで、特定の2AMCインスタンスに適応している。
2AMC問題の論理構造を利用して、これらの制約の一部を省略し、負の効果を制限できることが示される。
論文 参考訳(メタデータ) (2022-05-16T08:10:40Z) - Adaptive Discretization for Model-Based Reinforcement Learning [10.21634042036049]
本稿では,適応離散化手法を導入し,効率的なモデルに基づくエピソード強化学習アルゴリズムを設計する。
我々のアルゴリズムは、空間の適応的な離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。
論文 参考訳(メタデータ) (2020-07-01T19:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。