論文の概要: On the Optimal Reasoning Length for RL-Trained Language Models
- arxiv url: http://arxiv.org/abs/2602.09591v1
- Date: Tue, 10 Feb 2026 09:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.47825
- Title: On the Optimal Reasoning Length for RL-Trained Language Models
- Title(参考訳): RL学習言語モデルの最適推論長について
- Authors: Daisuke Nohara, Taishi Nakamura, Rio Yokota,
- Abstract要約: 本稿では,2つのモデル,Qwen3-1.7B BaseとDeepSeek-R1-Distill-Qwen-1.5Bを比較した。
提案手法により,提案手法の精度向上が期待できるが,提案手法の精度向上が期待できる。
- 参考スコア(独自算出の注目度): 11.41787480639841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning substantially improves reasoning in large language models, but it also tends to lengthen chain of thought outputs and increase computational cost during both training and inference. Though length control methods have been proposed, it remains unclear what the optimal output length is for balancing efficiency and performance. In this work, we compare several length control methods on two models, Qwen3-1.7B Base and DeepSeek-R1-Distill-Qwen-1.5B. Our results indicate that length penalties may hinder reasoning acquisition, while properly tuned length control can improve efficiency for models with strong prior reasoning. By extending prior work to RL trained policies, we identify two failure modes, 1) long outputs increase dispersion, and 2) short outputs lead to under-thinking.
- Abstract(参考訳): 強化学習は、大規模言語モデルの推論を大幅に改善するが、思考出力の連鎖を延長し、トレーニングと推論の両方において計算コストを増大させる傾向がある。
長さ制御法が提案されているが、効率と性能のバランスをとるために最適な出力長が何であるかは定かではない。
本研究では,2つのモデル,Qwen3-1.7B BaseとDeepSeek-R1-Distill-Qwen-1.5Bを比較した。
提案手法により,提案手法の精度向上が期待できるが,提案手法の精度向上が期待できる。
事前の作業をRLトレーニングポリシーに拡張することで、2つの障害モードを特定します。
1)長期出力は分散を増大させ、
2) 短いアウトプットは過小評価につながる。
関連論文リスト
- Leash: Adaptive Length Penalty and Reward Shaping for Efficient Large Reasoning Model [12.881680088950008]
LeashはLLMの効率的な推論のための強化学習フレームワークである。
Leashは、さまざまなタスクで平均推論の長さを60%削減します。
そこで本研究は, 制御可能かつ効率的なLCMを開発するための, 実用的で効果的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-12-25T07:16:26Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文 参考訳(メタデータ) (2025-05-23T18:44:46Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning [24.011063667060792]
推論言語モデルは、より長いチェーン・オブ・シークエンスを生成することによって、より長い'、つまり、より長い'、という考え方によって、テスト時のパフォーマンスを改善する能力を示している。
LCPO(Longth Controlled Policy Optimization)は、推論長の正確な制御を可能にし、テスト時間計算と精度の詳細な割り当てを可能にする。
論文 参考訳(メタデータ) (2025-03-06T18:43:29Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。