論文の概要: Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.11827v1
- Date: Sat, 17 May 2025 04:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.876055
- Title: Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning
- Title(参考訳): すべての思考が平等であるとは限らない:多段階強化学習による効率的なLLM推論
- Authors: Yansong Ning, Wei Li, Jun Fang, Naiqiang Tan, Hao Liu,
- Abstract要約: 大規模言語モデル(LLM)からの長いチェーン・オブ・シント(CoT)は、LLMの推論効率を改善するための新たな戦略である。
既存の研究は、全ての思考を長いCoT内で等しく圧縮し、より簡潔で効果的な推論を妨げる。
本稿では,Long$otimes$Shortを提案する。
- 参考スコア(独自算出の注目度): 12.830215971176806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compressing long chain-of-thought (CoT) from large language models (LLMs) is an emerging strategy to improve the reasoning efficiency of LLMs. Despite its promising benefits, existing studies equally compress all thoughts within a long CoT, hindering more concise and effective reasoning. To this end, we first investigate the importance of different thoughts by examining their effectiveness and efficiency in contributing to reasoning through automatic long CoT chunking and Monte Carlo rollouts. Building upon the insights, we propose a theoretically bounded metric to jointly measure the effectiveness and efficiency of different thoughts. We then propose Long$\otimes$Short, an efficient reasoning framework that enables two LLMs to collaboratively solve the problem: a long-thought LLM for more effectively generating important thoughts, while a short-thought LLM for efficiently generating remaining thoughts. Specifically, we begin by synthesizing a small amount of cold-start data to fine-tune LLMs for long-thought and short-thought reasoning styles, respectively. Furthermore, we propose a synergizing-oriented multi-turn reinforcement learning, focusing on the model self-evolution and collaboration between long-thought and short-thought LLMs. Experimental results show that our method enables Qwen2.5-7B and Llama3.1-8B to achieve comparable performance compared to DeepSeek-R1-Distill-Qwen-7B and DeepSeek-R1-Distill-Llama-8B, while reducing token length by over 80% across the MATH500, AIME24/25, AMC23, and GPQA Diamond benchmarks. Our data and code are available at https://github.com/yasNing/Long-otimes-Short/.
- Abstract(参考訳): 大規模言語モデル(LLM)から長いチェーン・オブ・シークレット(CoT)を圧縮することは、LLMの推論効率を改善するための新たな戦略である。
有望な利点にもかかわらず、既存の研究は長いCoT内のすべての考えを等しく圧縮し、より簡潔で効果的な推論を妨げる。
この目的のために,我々はまず,CoTチャンキングとモンテカルロのロールアウトによる推論に寄与する上で,その有効性と効率を検証し,異なる思考の重要性を考察した。
これらの知見に基づいて、異なる思考の有効性と効率を共同で測定する理論的境界付き計量を提案する。
次に,Long$\otimes$Shortを提案する。Long$\otimes$Shortは,Long$\otimes$Short,Long$\otimes$Short,Long$\otimes$Short,Long$\otimes$Short,Long$\otimes$Short,Long $\otimes$Short,Long$\otimes$Short,Long$\otimes。
具体的には,短時間のコールドスタートデータを,長い思考と短い思考の推論スタイルのための微調整LDMに合成することから始める。
さらに, モデル自己進化と, 長期的思考と短期的思考の協調に着目した, 協調型多ターン強化学習を提案する。
実験の結果,Qwen2.5-7BとLlama3.1-8Bは,MATH500,AIME24/25,AMC23,GPQAダイアモンドベンチマークにおいて,トークン長を80%以上削減しつつ,DeepSeek-R1-Distill-Qwen-7BとDeepSeek-R1-Distill-Llama-8Bと同等の性能を実現することがわかった。
私たちのデータとコードはhttps://github.com/yasNing/Long-otimes-Short/で公開されています。
関連論文リスト
- Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately [29.018731931275138]
大規模言語モデル(LLM)は、所定の要求に応答するChain-of-Thought推論を生成することで、より優れた機能を得ることができる。
しかし,2つのスケーリング次元を取り入れた場合,システム効率は2つの理由から著しく低下する。
本稿では,効率的なLLM推論のためのサービスフレームワークであるSARTについて述べる。
論文 参考訳(メタデータ) (2025-05-19T16:34:56Z) - Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs [25.03191529055168]
大規模言語モデル(LLM)は推論能力の進歩により複雑なタスクに優れる。
既存の手法は推論の有効性と計算効率のトレードオフを見落としている。
より少ないトークンで最適な推論を実現するために,学習から思考への学習を提案する。
論文 参考訳(メタデータ) (2025-05-15T15:40:25Z) - ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning [68.02825465552779]
我々は、思考長を長く考えるLLMに対して、シンプルで効果的な方法であるThinkPruneを提案する。
AIME24データセットでは、DeepSeek-R1-Distill-Qwen-1.5Bの推論長は、パフォーマンスがわずか2%低下しただけで半分削減できる。
論文 参考訳(メタデータ) (2025-04-02T01:59:26Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。