論文の概要: L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.04697v1
- Date: Thu, 06 Mar 2025 18:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:49.892947
- Title: L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning
- Title(参考訳): L1:強化学習による推論モデルの思考時間制御
- Authors: Pranjal Aggarwal, Sean Welleck,
- Abstract要約: 推論言語モデルは、より長いチェーン・オブ・シークエンスを生成することによって、より長い'、つまり、より長い'、という考え方によって、テスト時のパフォーマンスを改善する能力を示している。
長長制御政策最適化(Longth Controlled Policy Optimization、LCPO)は、ユーザ指定長制約に対する精度と順守を最適化する強化学習手法である。
LCPOは推論長を正確に制御することができ、テスト時間計算と精度の微粒化を可能にしている。
- 参考スコア(独自算出の注目度): 24.00640679767529
- License:
- Abstract: Reasoning language models have shown an uncanny ability to improve performance at test-time by ``thinking longer''-that is, by generating longer chain-of-thought sequences and hence using more compute. However, the length of their chain-of-thought reasoning is not controllable, making it impossible to allocate test-time compute to achieve a desired level of performance. We introduce Length Controlled Policy Optimization (LCPO), a simple reinforcement learning method that optimizes for accuracy and adherence to user-specified length constraints. We use LCPO to train L1, a reasoning language model that produces outputs satisfying a length constraint given in its prompt. L1's length control allows for smoothly trading off computational cost and accuracy on a wide range of tasks, and outperforms the state-of-the-art S1 method for length control. Furthermore, we uncover an unexpected short chain-of-thought capability in models trained with LCPO. For instance, our 1.5B L1 model surpasses GPT-4o at equal reasoning lengths. Overall, LCPO enables precise control over reasoning length, allowing for fine-grained allocation of test-time compute and accuracy. We release code and models at https://www.cmu-l3.github.io/l1
- Abstract(参考訳): 推論言語モデルは、より長いチェーンのシーケンスを生成し、従ってより多くの計算を使用することで、‘より長く考える’ことによって、テスト時のパフォーマンスを改善する不気味な能力を示している。
しかし、チェーンオブ思考の推論の長さは制御できないため、所望のパフォーマンスのレベルを達成するためにテスト時間計算を割り当てることは不可能である。
本稿では,ユーザ指定長制約に対する精度と順応性を最適化するシンプルな強化学習手法であるLongth Controlled Policy Optimization (LCPO)を紹介する。
我々はLCPOを用いてL1を訓練する。L1はプロンプトに与えられる長さ制約を満たす出力を生成する推論言語モデルである。
L1の長さ制御は、幅広いタスクの計算コストと精度を円滑に取り除き、長さ制御のための最先端のS1法よりも優れている。
さらに、LCPOで訓練されたモデルにおいて、予期せぬ短チェーンの能力を明らかにする。
例えば、1.5B L1 モデルは、同じ推論長で GPT-4o を超える。
LCPOは全体として、推論長の正確な制御を可能にし、テスト時間計算と精度の詳細な割り当てを可能にする。
コードとモデルはhttps://www.cmu-l3.github.io/l1でリリースします。
関連論文リスト
- When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation [88.77999917897702]
OpenAIのo1は、驚くべき推論機能を示している。
多くのチームがLongCoTと推論機能を再現しようと試みている。
本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T08:19:59Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Precise Length Control in Large Language Models [1.3654846342364308]
大規模言語モデル(LLM)は、プロダクションシステムでますます使われている。
本稿では,事前学習したデコーダのみのLCMを応答長の正確な制御に適応させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-16T16:22:27Z) - Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators [59.48172585509628]
自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。
実ケーススタディとして,チャットLLMのベンチマークであるAlpacaEvalの長さバイアスの低減に着目した。
モデルとベースラインの出力が同じ長さである場合、その好みは何でしょう?
論文 参考訳(メタデータ) (2024-04-06T02:29:02Z) - Prompt-Based Length Controlled Generation with Reinforcement Learning [48.49553921757085]
本稿では,高精度な長さ制御生成を実現するために,プロンプトベースの長さ制御手法を提案する。
我々は、トレーニング可能なモデルまたはルールベースの報酬モデルによって与えられる報酬信号を用いた強化学習を採用する。
提案手法は,CNNDMやNYTなどの一般的なデータセット上での要約タスクにおいて,プロンプトベースの長さ制御の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-08-23T09:43:10Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。