論文の概要: ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.01296v1
- Date: Wed, 02 Apr 2025 01:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 19:59:19.210384
- Title: ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning
- Title(参考訳): ThinkPrune:強化学習によるLLMの長鎖構築
- Authors: Bairu Hou, Yang Zhang, Jiabao Ji, Yujian Liu, Kaizhi Qian, Jacob Andreas, Shiyu Chang,
- Abstract要約: 我々は、思考長を長く考えるLLMに対して、シンプルで効果的な方法であるThinkPruneを提案する。
AIME24データセットでは、DeepSeek-R1-Distill-Qwen-1.5Bの推論長は、パフォーマンスがわずか2%低下しただけで半分削減できる。
- 参考スコア(独自算出の注目度): 68.02825465552779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ThinkPrune, a simple yet effective method for pruning the thinking length for long-thinking LLMs, which has been found to often produce inefficient and redundant thinking processes. Existing preliminary explorations of reducing thinking length primarily focus on forcing the thinking process to early exit, rather than adapting the LLM to optimize and consolidate the thinking process, and therefore the length-performance tradeoff observed so far is sub-optimal. To fill this gap, ThinkPrune offers a simple solution that continuously trains the long-thinking LLMs via reinforcement learning (RL) with an added token limit, beyond which any unfinished thoughts and answers will be discarded, resulting in a zero reward. To further preserve model performance, we introduce an iterative length pruning approach, where multiple rounds of RL are conducted, each with an increasingly more stringent token limit. We observed that ThinkPrune results in a remarkable performance-length tradeoff -- on the AIME24 dataset, the reasoning length of DeepSeek-R1-Distill-Qwen-1.5B can be reduced by half with only 2% drop in performance. We also observed that after pruning, the LLMs can bypass unnecessary steps while keeping the core reasoning process complete. Code is available at https://github.com/UCSB-NLP-Chang/ThinkPrune.
- Abstract(参考訳): 本稿では,LLMの思考長を簡易かつ効果的に決定する方法であるThinkPruneについて述べる。
従来の思考長の削減に関する予備的な調査は, LLMを最適化・統合に適応させるよりも, 思考プロセスの早期退避を強制することに重点を置いているため, これまで観察されてきた長大なトレードオフは準最適である。
このギャップを埋めるためにThinkPruneは、長期にわたるLLMを強化学習(RL)を通じて継続的に訓練するシンプルなソリューションを提供する。
モデル性能をさらに向上するために,複数ラウンドのRLが実行される反復長プルーニング手法を導入する。
AIME24データセットでは、DeepSeek-R1-Distill-Qwen-1.5Bの推論長が半減し、パフォーマンスがわずか2%低下するしかありません。
また, 刈り込み後, LLMはコア推論プロセスの完了を保ちながら不要なステップを回避可能であることも確認した。
コードはhttps://github.com/UCSB-NLP-Chang/ThinkPruneで入手できる。
関連論文リスト
- Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。
これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。
実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2025-04-30T18:48:06Z) - Prejudge-Before-Think: Enhancing Large Language Models at Test-Time by Process Prejudge Reasoning [13.865037985388575]
我々は LLM 推論に新しい Emphprocess prejudge 戦略を導入する。
我々は、推論ステップを表す理性において、事前判断ノードを定義する。
動的木探索戦略を用いた自動推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-18T06:42:30Z) - Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning [60.67176246634741]
メタ強化学習(RL)問題としてテスト時間計算を最適化する問題を定式化する。
現状のモデルでは後悔を最小限に抑えることはできないが,結果0/1報酬RLと合わせて報酬ボーナスを最大化することで,それを実現できることを示す。
論文 参考訳(メタデータ) (2025-03-10T17:40:43Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。