論文の概要: Reasoning Steps as Curriculum: Using Depth of Thought as a Difficulty Signal for Tuning LLMs
- arxiv url: http://arxiv.org/abs/2508.18279v1
- Date: Wed, 13 Aug 2025 11:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.607436
- Title: Reasoning Steps as Curriculum: Using Depth of Thought as a Difficulty Signal for Tuning LLMs
- Title(参考訳): 思考深度をLLMのチューニング困難信号として用いた推論ステップのカリキュラム化
- Authors: Jeesu Jung, Sangkeun Jung,
- Abstract要約: 我々は,難易度を思考深度(DoT)として定義し,教師モデルの推論トレースにおける個別ステップを数えて運用する。
次に、このDoTで命令された浅いから深いカリキュラムでトレーニングを行い、それを大規模に導出し、検証し、スケジュールする方法について概説します。
- 参考スコア(独自算出の注目度): 5.8153681798663
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Curriculum learning for training LLMs requires a difficulty signal that aligns with reasoning while remaining scalable and interpretable. We propose a simple premise: tasks that demand deeper depth of thought for humans should also be harder for models. Accordingly, we define difficulty as depth of thought (DoT) and operationalize it by counting the discrete steps in a teacher model's reasoning trace (e.g., Chain-of-Thought). We then train with a shallow to deep curriculum ordered by this DoT and outline how to derive, validate, and schedule it at scale. Our position yields three testable hypotheses: (i) DoT correlates with conventional difficulty on reasoning benchmarks, (ii) DoT-ordered curricula outperform length- or judge-scored curricula under matched budgets, and (iii) the difficulty is robust across teacher models given light formatting controls. We propose an evaluation framework and discuss threats to validity (teacher style, length confounds) alongside practical mitigations. Taken together, we aim to move toward cognitively grounded, interpretable curricula for reasoning-centric training.
- Abstract(参考訳): LLMをトレーニングするためのカリキュラム学習には、スケーラブルで解釈可能なままの推論と整合する困難信号が必要である。
モデルでは,人間の思考深度を求めるタスクも困難である。
そこで我々は,難易度を思考深度(DoT)として定義し,教師モデルの推論トレース(例えばChain-of-Thought)における個別ステップを数えて運用する。
次に、このDoTで命令された浅いから深いカリキュラムでトレーニングを行い、それを大規模に導出し、検証し、スケジュールする方法について概説します。
私たちの立場は3つの証明可能な仮説を導き出す。
i)DoTは従来の推論ベンチマークの難しさと相関する。
二 予算の整合により、DoTの順序付きキュリキュラの長さ又は判定付きキュリキュラを上回るもの
三 ライトフォーマッティング制御を施した教師モデルにおいて、難易度は堅牢である。
評価枠組みを提案し,実践的緩和とともに妥当性(教師のスタイル, 長さの相違)に対する脅威を議論する。
本研究は,思考中心の学習のために,認知的基盤を持つ解釈可能なカリキュラムへと進むことを目的としている。
関連論文リスト
- Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - LLMs can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought [28.122761006724925]
PedCoT(Pedagogical Chain-of-Thought)は、推論ミスの識別のガイドとして設計されている。
PedCoTは、プロンプト(PPP)設計のための教育原則、2段階インタラクションプロセス(TIP)およびグラウンドドPedCoTプロンプトからなる。
提案手法は,信頼性の高い数学的誤り識別の目標を達成し,自動解答グレーディングの基盤を提供する。
論文 参考訳(メタデータ) (2024-05-09T07:37:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。