論文の概要: ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.10822v1
- Date: Thu, 12 Jun 2025 15:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.819412
- Title: ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization
- Title(参考訳): ReCUT:ステップワイド・トレイルと優先度最適化によるLLMにおける推論長と精度のバランス
- Authors: Zhensheng Jin, Xinze Li, Yifan Ji, Chunyi Peng, Zhenghao Liu, Qi Shi, Yukun Yan, Shuo Wang, Furong Peng, Ge Yu,
- Abstract要約: Reasoning Compression ThroUgh Stepwise Trials (ReCUT) は推論軌道の精度と長さのバランスをとるための新しい手法である。
複数の数学推論データセットとバックボーンモデルによる実験結果から、ReCUTは推論の長さを約30~50%削減することが示された。
- 参考スコア(独自算出の注目度): 16.51303604678232
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Chain-of-Thought (CoT) prompting have substantially improved the reasoning capabilities of Large Language Models (LLMs). However, these methods often suffer from overthinking, leading to unnecessarily lengthy or redundant reasoning traces. Existing approaches attempt to mitigate this issue through curating multiple reasoning chains for training LLMs, but their effectiveness is often constrained by the quality of the generated data and prone to overfitting. To address the challenge, we propose Reasoning Compression ThroUgh Stepwise Trials (ReCUT), a novel method aimed at balancing the accuracy and length of reasoning trajectory. Specifically, ReCUT employs a stepwise exploration mechanism and a long-short switched sampling strategy, enabling LLMs to incrementally generate diverse reasoning paths. These paths are evaluated and used to construct preference pairs to train two specialized models (Gemini LLMs)-one optimized for reasoning accuracy, the other for shorter reasoning. A final integrated model is obtained by interpolating the parameters of these two models. Experimental results across multiple math reasoning datasets and backbone models demonstrate that ReCUT significantly reduces reasoning lengths by approximately 30-50%, while maintaining or improving reasoning accuracy compared to various baselines. All codes and data will be released via https://github.com/NEUIR/ReCUT.
- Abstract(参考訳): 近年のChain-of-Thought(CoT)の進歩により,Large Language Models(LLMs)の推論能力は大幅に向上した。
しかし、これらの手法は過度な思考に悩まされ、不必要に長く、あるいは冗長な推論の痕跡が生じる。
既存のアプローチでは、LLMをトレーニングするための複数の推論チェーンをキュレートすることでこの問題を緩和しようとするが、その効果は生成されたデータの品質に制約され、過度に適合する傾向がある。
この課題に対処するために,提案するReasoning Compression ThroUgh Stepwise Trials (ReCUT)を提案する。
具体的には、ReCUTはステップワイズ探索機構とロングショートスイッチングサンプリング戦略を採用しており、LSMは様々な推論経路を段階的に生成することができる。
これらの経路は評価され、2つの特殊モデル(Gemini LLM)を推論精度に最適化し、もう1つはより短い推論に最適化するための選好ペアを構築するために使用される。
この2つのモデルのパラメータを補間することにより、最終的な統合モデルが得られる。
複数の数学推論データセットとバックボーンモデルにまたがる実験結果から、ReCUTは推論の精度を様々なベースラインと比較して維持または改善しながら、推論の長さを約30~50%削減することが示された。
すべてのコードとデータはhttps://github.com/NEUIR/ReCUTで公開される。
関連論文リスト
- TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [75.81611837629764]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。