論文の概要: TACLer: Tailored Curriculum Reinforcement Learning for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2601.21711v1
- Date: Thu, 29 Jan 2026 13:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.856349
- Title: TACLer: Tailored Curriculum Reinforcement Learning for Efficient Reasoning
- Title(参考訳): TACLer:効率的な推論のための卓越したカリキュラム強化学習
- Authors: Huiyuan Lai, Malvina Nissim,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
本稿では,モデル化されたカリキュラム強化学習フレームワークであるTACLerを提案する。
TACLerには2つの中核的なコンポーネントがある: (i) モデルにどの知識が欠けているのかを判断し、段階的に学ぶ必要がある調整されたカリキュラム学習; (ii) シンキングモードを有効にまたは無効にすることで正確性と効率のバランスをとるハイブリッド思考/ノーシンキング推論パラダイム。
- 参考スコア(独自算出の注目度): 24.04507196574173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable performance on complex reasoning tasks, especially when equipped with long chain-of-thought (CoT) reasoning. However, eliciting long CoT typically requires large-scale reinforcement learning (RL) training, while often leading to overthinking with redundant intermediate steps. To improve learning and reasoning efficiency, while preserving or even enhancing performance, we propose TACLer, a model-tailored curriculum reinforcement learning framework that gradually increases the complexity of the data based on the model's proficiency in multi-stage RL training. TACLer features two core components: (i) tailored curriculum learning that determines what knowledge the model lacks and needs to learn in progressive stages; (ii) a hybrid Thinking/NoThinking reasoning paradigm that balances accuracy and efficiency by enabling or disabling the Thinking mode. Our experiments show that TACLer yields a twofold advantage in learning and reasoning: (i) it reduces computational cost, cutting training compute by over 50% compared to long thinking models and reducing inference token usage by over 42% relative to the base model; and (ii) it improves accuracy by over 9% on the base model, consistently outperforming state-of-the-art Nothinking and Thinking baselines across four math datasets with complex problems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に長いチェーン・オブ・シークレット(CoT)推論を備えた場合、複雑な推論タスクにおいて顕著な性能を示す。
しかし、長いCoTを引き出すには、通常、大規模な強化学習(RL)の訓練を必要とするが、しばしば冗長な中間ステップで過度に考えることになる。
学習と推論の効率を向上させるために,多段階RL学習におけるモデルの習熟度に基づいて,データの複雑さを徐々に増大させるモデル調整型カリキュラム強化学習フレームワークであるTACLerを提案する。
TACLerは2つのコアコンポーネントを備えている。
一 モデルに何の知識が欠けているかを決定し、段階的に学ぶ必要があるかを決定するための調整されたカリキュラムの学習
(II)シンキングモードを有効にまたは無効にすることで精度と効率のバランスをとるハイブリッドシンキング/ノシンキング推論パラダイム。
実験の結果,TACLerは学習と推論において2倍の利点があることがわかった。
一 長期思考モデルと比較して計算コストを削減し、トレーニング計算を50%以上削減し、推論トークンの使用量をベースモデルと比較して42%以上削減する。
(II) 基礎モデルの精度を9%以上向上させ, 複雑な問題のある4つの数学データセットにおいて, 常に最先端のNothinkingとThinkingのベースラインを上回っている。
関連論文リスト
- Boosting Accuracy and Efficiency of Budget Forcing in LLMs via Reinforcement Learning for Mathematical Reasoning [1.4348015996689416]
本稿では,Regressed Learning(RL)を統合したフレームワークを提案し,トークン効率の向上と数学的推論のための1.5Bモデルの性能向上を図る。
その結果,SFTモデルと比較してトークン使用率を40%以上削減し,全体的な精度が向上した。
論文 参考訳(メタデータ) (2025-10-24T12:39:15Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [58.62311540316617]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - Demystifying Long Chain-of-Thought Reasoning in LLMs [46.352406501403465]
ロングチェーン・オブ・シント(CoT)は、バックトラックやエラー修正のような戦略を可能にする。
強化学習(Reinforcement Learning, RL)は、これらの能力を開発する上で重要な方法である。
モデルが長いCoT軌道を生成できる重要な要素を同定する。
論文 参考訳(メタデータ) (2025-02-05T17:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。