論文の概要: Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement
- arxiv url: http://arxiv.org/abs/2505.07961v2
- Date: Wed, 14 May 2025 01:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 13:24:43.911515
- Title: Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement
- Title(参考訳): 小さな言語モデルを効果的に作成する:インターベンション、スーパービジョン、強化
- Authors: Xuechen Zhang, Zijian Huang, Chenshun Ni, Ziyang Xiong, Jiasi Chen, Samet Oymak,
- Abstract要約: 精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。
まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。
MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
- 参考スコア(独自算出の注目度): 22.801244105119025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research enhances language model reasoning by scaling test-time compute via longer chain-of-thought traces. This often improves accuracy but also introduces redundancy and high computational cost, especially for small language models distilled with supervised fine-tuning (SFT). In this work, we propose new algorithms to improve token-efficient reasoning with small-scale models by effectively trading off accuracy and computation. We first show that the post-SFT model fails to determine the optimal stopping point of the reasoning process, resulting in verbose and repetitive outputs. Verbosity also significantly varies across wrong vs correct responses. To address these issues, we propose two solutions: (1) Temperature scaling (TS) to control the stopping point for the thinking phase and thereby trace length, and (2) TLDR: a length-regularized reinforcement learning method based on GRPO that facilitates multi-level trace length control (e.g. short, medium, long reasoning). Experiments on four reasoning benchmarks, MATH500, AMC, AIME24 and OlympiadBench, demonstrate that TS is highly effective compared to s1's budget forcing approach and TLDR significantly improves token efficiency by about 50% with minimal to no accuracy loss over the SFT baseline. Moreover, TLDR also facilitates flexible control over the response length, offering a practical and effective solution for token-efficient reasoning in small models. Ultimately, our work reveals the importance of stopping time control, highlights shortcomings of pure SFT, and provides effective algorithmic recipes.
- Abstract(参考訳): 近年の研究では、より長いチェーンオブソートトレースによるテスト時間計算のスケーリングにより、言語モデル推論が強化されている。
これはしばしば精度を向上させるが、特に教師付き微調整(SFT)で蒸留された小さな言語モデルでは冗長性と高い計算コストをもたらす。
本研究では,精度と計算を効果的にトレードオフすることで,小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。
まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。
反響は、間違った反応と正しい反応で大きく異なる。
これらの問題に対処するために,(1)思考フェーズの停止点を温度スケーリング(TS)で制御し,その結果のトレース長を制御すること,(2)TLDR:多段階のトレース長制御を容易にするGRPOに基づく長規則化強化学習法を提案する。
MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験では、TSはs1の予算強制アプローチと比較して非常に効果的であり、TLDRはSFTベースラインに対する精度の低下を最小限に抑えてトークン効率を約50%改善することを示した。
さらに、TLDRは応答長を柔軟に制御し、小さなモデルでトークン効率の推論を行うための実用的で効果的なソリューションを提供する。
最終的に、我々の研究は、時間制御の停止の重要性を明らかにし、純粋なSFTの欠点を強調し、効果的なアルゴリズムレシピを提供する。
関連論文リスト
- Dynamic Early Exit in Reasoning Models [14.508648537186989]
長いチェーン・オブ・シークレット(CoT)生成における再考は、問題解決の効率を遅くする。
本研究では,LLMが生成時に早期終了によってCoT配列を自己トランケートする手法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。