Fugu-MT 論文翻訳(概要): ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning

論文の概要: ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2504.01296v1
Date: Wed, 02 Apr 2025 01:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.210384
Title: ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning
Title（参考訳）: ThinkPrune:強化学習によるLLMの長鎖構築
Authors: Bairu Hou, Yang Zhang, Jiabao Ji, Yujian Liu, Kaizhi Qian, Jacob Andreas, Shiyu Chang,
Abstract要約: 我々は、思考長を長く考えるLLMに対して、シンプルで効果的な方法であるThinkPruneを提案する。 AIME24データセットでは、DeepSeek-R1-Distill-Qwen-1.5Bの推論長は、パフォーマンスがわずか2%低下しただけで半分削減できる。
参考スコア（独自算出の注目度）: 68.02825465552779
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present ThinkPrune, a simple yet effective method for pruning the thinking length for long-thinking LLMs, which has been found to often produce inefficient and redundant thinking processes. Existing preliminary explorations of reducing thinking length primarily focus on forcing the thinking process to early exit, rather than adapting the LLM to optimize and consolidate the thinking process, and therefore the length-performance tradeoff observed so far is sub-optimal. To fill this gap, ThinkPrune offers a simple solution that continuously trains the long-thinking LLMs via reinforcement learning (RL) with an added token limit, beyond which any unfinished thoughts and answers will be discarded, resulting in a zero reward. To further preserve model performance, we introduce an iterative length pruning approach, where multiple rounds of RL are conducted, each with an increasingly more stringent token limit. We observed that ThinkPrune results in a remarkable performance-length tradeoff -- on the AIME24 dataset, the reasoning length of DeepSeek-R1-Distill-Qwen-1.5B can be reduced by half with only 2% drop in performance. We also observed that after pruning, the LLMs can bypass unnecessary steps while keeping the core reasoning process complete. Code is available at https://github.com/UCSB-NLP-Chang/ThinkPrune.
Abstract（参考訳）: 本稿では,LLMの思考長を簡易かつ効果的に決定する方法であるThinkPruneについて述べる。従来の思考長の削減に関する予備的な調査は, LLMを最適化・統合に適応させるよりも, 思考プロセスの早期退避を強制することに重点を置いているため, これまで観察されてきた長大なトレードオフは準最適である。このギャップを埋めるためにThinkPruneは、長期にわたるLLMを強化学習(RL)を通じて継続的に訓練するシンプルなソリューションを提供する。モデル性能をさらに向上するために,複数ラウンドのRLが実行される反復長プルーニング手法を導入する。 AIME24データセットでは、DeepSeek-R1-Distill-Qwen-1.5Bの推論長が半減し、パフォーマンスがわずか2%低下するしかありません。また, 刈り込み後, LLMはコア推論プロセスの完了を保ちながら不要なステップを回避可能であることも確認した。コードはhttps://github.com/UCSB-NLP-Chang/ThinkPruneで入手できる。

関連論文リスト

Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文参考訳（メタデータ） (2025-06-08T17:54:33Z)
Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。 E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文参考訳（メタデータ） (2025-06-07T02:41:54Z)
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning [45.807019099421225]
大規模言語モデル(LLM)の推論は、複雑な推論タスクを実行するためにテスト時間計算のスケーリングに依存する。個々の質問における短い推論連鎖が、正しい回答をもたらす可能性が著しく高いことを実証する。次に、短いトレーニングがパフォーマンスの向上につながることを観察します。
論文参考訳（メタデータ） (2025-05-23T12:29:06Z)
Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately [29.018731931275138]
大規模言語モデル(LLM)は、所定の要求に応答するChain-of-Thought推論を生成することで、より優れた機能を得ることができる。しかし,2つのスケーリング次元を取り入れた場合,システム効率は2つの理由から著しく低下する。本稿では,効率的なLLM推論のためのサービスフレームワークであるSARTについて述べる。
論文参考訳（メタデータ） (2025-05-19T16:34:56Z)
Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning [12.830215971176806]
ロングチェーン・オブ・思想(CoT)は、大規模言語モデル(LLM)の推論効率を改善するための新たな戦略である。本研究では,異なる思考の有効性と効率を測定するための理論的に有界な尺度を提案する。次に,2つのLong$otimes$Shortを提案する。
論文参考訳（メタデータ） (2025-05-17T04:26:39Z)
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs [52.405085773954596]
大規模な言語モデル(LLM)は、単純な問題を克服し、不要に長いアウトプットを生成し、より難しいものを過小評価する傾向にある。これは、モデルが問題の難しさを誤認し、応答長を適切に調整できないことを示唆している。実験の結果, 許容精度を維持しつつ, 生成時間を大幅に短縮できることがわかった。
論文参考訳（メタデータ） (2025-04-30T18:48:06Z)
Prejudge-Before-Think: Enhancing Large Language Models at Test-Time by Process Prejudge Reasoning [13.865037985388575]
我々は LLM 推論に新しい Emphprocess prejudge 戦略を導入する。我々は、推論ステップを表す理性において、事前判断ノードを定義する。動的木探索戦略を用いた自動推論フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-18T06:42:30Z)
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning [60.67176246634741]
メタ強化学習(RL)問題としてテスト時間計算を最適化する問題を定式化する。現状のモデルでは後悔を最小限に抑えることはできないが,結果0/1報酬RLと合わせて報酬ボーナスを最大化することで,それを実現できることを示す。
論文参考訳（メタデータ） (2025-03-10T17:40:43Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文参考訳（メタデータ） (2025-01-22T01:35:11Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。