論文の概要: Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT?
- arxiv url: http://arxiv.org/abs/2504.11741v1
- Date: Wed, 16 Apr 2025 03:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:54.436764
- Title: Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT?
- Title(参考訳): LLMはSFT後にも救えないのか?
- Authors: Yiyou Sun, Georgia Zhou, Hao Wang, Dacheng Li, Nouha Dziri, Dawn Song,
- Abstract要約: AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
- 参考スコア(独自算出の注目度): 59.418994222096885
- License:
- Abstract: Recent supervised fine-tuning (SFT) approaches have significantly improved language models' performance on mathematical reasoning tasks, even when models are trained at a small scale. However, the specific capabilities enhanced through such fine-tuning remain poorly understood. In this paper, we conduct a detailed analysis of model performance on the AIME24 dataset to understand how reasoning capabilities evolve. We discover a ladder-like structure in problem difficulty, categorize questions into four tiers (Easy, Medium, Hard, and Extremely Hard (Exh)), and identify the specific requirements for advancing between tiers. We find that progression from Easy to Medium tier requires adopting an R1 reasoning style with minimal SFT (500-1K instances), while Hard-level questions suffer from frequent model's errors at each step of the reasoning chain, with accuracy plateauing at around 65% despite logarithmic scaling. Exh-level questions present a fundamentally different challenge; they require unconventional problem-solving skills that current models uniformly struggle with. Additional findings reveal that carefully curated small-scale datasets offer limited advantage-scaling dataset size proves far more effective. Our analysis provides a clearer roadmap for advancing language model capabilities in mathematical reasoning.
- Abstract(参考訳): 最近の教師付き微調整(SFT)アプローチは,小規模で訓練された場合でも,数学的推論タスクにおける言語モデルの性能を大幅に改善した。
しかし、このような微調整によって強化された具体的な能力はいまだに理解されていない。
本稿では,AIME24データセット上でのモデル性能の詳細な解析を行い,推論能力の進化について考察する。
問題難易度におけるはしごのような構造を発見し,質問を4段階(易度,中度,硬度,極度硬度(Exh))に分類し,階層間を進むための具体的な要件を特定する。
SFT(500-1Kインスタンス)が最小限であるR1推論スタイルを採用する必要があるのに対し、ハードレベルの問題は推論チェーンの各ステップで頻繁なモデルエラーに悩まされ、対数スケーリングにもかかわらず精度はおよそ65%低下する。
エクレベルの質問は、根本的に異なる課題を示します。それらは、現在のモデルが一様に苦労する、伝統的な問題解決スキルを必要とします。
さらなる発見により、慎重にキュレートされた小規模データセットは、限定的な長所スケーリングデータセットサイズを提供することで、はるかに効果的であることが判明した。
我々の分析は、数学的推論における言語モデル機能向上のための、より明確なロードマップを提供する。
関連論文リスト
- Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。
これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。
様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (2024-09-27T03:49:56Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。
本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。
本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文 参考訳(メタデータ) (2024-01-12T18:36:29Z) - Conic10K: A Challenging Math Problem Understanding and Reasoning Dataset [38.99073257782012]
本研究では,中国の高等学校における円錐部分の数学問題データセットであるConic10Kを提案する。
我々のデータセットは、様々な推論深度を持つ様々な問題を含むが、円錐部分からの知識は必要である。
各問題に対して、高品質な形式表現、推論ステップ、最終解を提供する。
論文 参考訳(メタデータ) (2023-11-09T02:58:17Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Pushing the Limits of Rule Reasoning in Transformers through Natural
Language Satisfiability [30.01308882849197]
本稿では,アルゴリズム推論データセットを作成するための新しい手法を提案する。
鍵となる考え方は、ハードプロポーズSAT問題の経験的なサンプリングや、言語に関する複雑性理論的な研究から洞察を得ることである。
十分なトレーニングデータを得た現在のトランスフォーマーは、結果のNLSat問題を解決するのに驚くほど堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-12-16T17:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。