Fugu-MT 論文翻訳(概要): L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

論文の概要: L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

arxiv url: http://arxiv.org/abs/2503.04697v1
Date: Thu, 06 Mar 2025 18:43:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.967279
Title: L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning
Title（参考訳）: L1:強化学習による推論モデルの思考時間制御
Authors: Pranjal Aggarwal, Sean Welleck,
Abstract要約: 推論言語モデルは、より長いチェーン・オブ・シークエンスを生成することによって、より長い'、つまり、より長い'、という考え方によって、テスト時のパフォーマンスを改善する能力を示している。長長制御政策最適化(Longth Controlled Policy Optimization、LCPO)は、ユーザ指定長制約に対する精度と順守を最適化する強化学習手法である。 LCPOは推論長を正確に制御することができ、テスト時間計算と精度の微粒化を可能にしている。
参考スコア（独自算出の注目度）: 24.00640679767529
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning language models have shown an uncanny ability to improve performance at test-time by ``thinking longer''-that is, by generating longer chain-of-thought sequences and hence using more compute. However, the length of their chain-of-thought reasoning is not controllable, making it impossible to allocate test-time compute to achieve a desired level of performance. We introduce Length Controlled Policy Optimization (LCPO), a simple reinforcement learning method that optimizes for accuracy and adherence to user-specified length constraints. We use LCPO to train L1, a reasoning language model that produces outputs satisfying a length constraint given in its prompt. L1's length control allows for smoothly trading off computational cost and accuracy on a wide range of tasks, and outperforms the state-of-the-art S1 method for length control. Furthermore, we uncover an unexpected short chain-of-thought capability in models trained with LCPO. For instance, our 1.5B L1 model surpasses GPT-4o at equal reasoning lengths. Overall, LCPO enables precise control over reasoning length, allowing for fine-grained allocation of test-time compute and accuracy. We release code and models at https://www.cmu-l3.github.io/l1
Abstract（参考訳）: 推論言語モデルは、より長いチェーンのシーケンスを生成し、従ってより多くの計算を使用することで、‘より長く考える’ことによって、テスト時のパフォーマンスを改善する不気味な能力を示している。しかし、チェーンオブ思考の推論の長さは制御できないため、所望のパフォーマンスのレベルを達成するためにテスト時間計算を割り当てることは不可能である。本稿では,ユーザ指定長制約に対する精度と順応性を最適化するシンプルな強化学習手法であるLongth Controlled Policy Optimization (LCPO)を紹介する。我々はLCPOを用いてL1を訓練する。L1はプロンプトに与えられる長さ制約を満たす出力を生成する推論言語モデルである。 L1の長さ制御は、幅広いタスクの計算コストと精度を円滑に取り除き、長さ制御のための最先端のS1法よりも優れている。さらに、LCPOで訓練されたモデルにおいて、予期せぬ短チェーンの能力を明らかにする。例えば、1.5B L1 モデルは、同じ推論長で GPT-4o を超える。 LCPOは全体として、推論長の正確な制御を可能にし、テスト時間計算と精度の詳細な割り当てを可能にする。コードとモデルはhttps://www.cmu-l3.github.io/l1でリリースします。

関連論文リスト

Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文参考訳（メタデータ） (2025-06-08T17:54:33Z)
AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models [56.063571989395946]
推論可能な大規模言語モデル(LLM)は、複雑な推論タスクにおいて強力な性能を示す。最近のアプローチでは、長い推論や短い推論をいつ適用すべきかを手動で決めることによって、この問題に対処しようとしている。本稿では,LLMが生成した推論経路を動的に圧縮できる動的かつモデルに依存しないフレームワークであるAuto Long-Short Reasoning (AutoL2S)を提案する。
論文参考訳（メタデータ） (2025-05-28T17:59:53Z)
Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文参考訳（メタデータ） (2025-05-23T18:44:46Z)
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。 DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-05-21T15:03:26Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。 MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文参考訳（メタデータ） (2025-05-12T18:04:39Z)
ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning [68.02825465552779]
我々は、思考長を長く考えるLLMに対して、シンプルで効果的な方法であるThinkPruneを提案する。 AIME24データセットでは、DeepSeek-R1-Distill-Qwen-1.5Bの推論長は、パフォーマンスがわずか2%低下しただけで半分削減できる。
論文参考訳（メタデータ） (2025-04-02T01:59:26Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation [88.77999917897702]
OpenAIのo1は、驚くべき推論機能を示している。多くのチームがLongCoTと推論機能を再現しようと試みている。本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-02-06T08:19:59Z)
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文参考訳（メタデータ） (2025-01-22T01:35:11Z)
Precise Length Control in Large Language Models [1.3654846342364308]
大規模言語モデル(LLM)は、プロダクションシステムでますます使われている。本稿では,事前学習したデコーダのみのLCMを応答長の正確な制御に適応させる手法を提案する。
論文参考訳（メタデータ） (2024-12-16T16:22:27Z)
Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators [59.48172585509628]
自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。実ケーススタディとして,チャットLLMのベンチマークであるAlpacaEvalの長さバイアスの低減に着目した。モデルとベースラインの出力が同じ長さである場合、その好みは何でしょう?
論文参考訳（メタデータ） (2024-04-06T02:29:02Z)
Prompt-Based Length Controlled Generation with Reinforcement Learning [48.49553921757085]
本稿では,高精度な長さ制御生成を実現するために,プロンプトベースの長さ制御手法を提案する。我々は、トレーニング可能なモデルまたはルールベースの報酬モデルによって与えられる報酬信号を用いた強化学習を採用する。提案手法は,CNNDMやNYTなどの一般的なデータセット上での要約タスクにおいて,プロンプトベースの長さ制御の精度を大幅に向上させる。
論文参考訳（メタデータ） (2023-08-23T09:43:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。