論文の概要: LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
- arxiv url: http://arxiv.org/abs/2502.07374v2
- Date: Tue, 18 Feb 2025 05:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:20.124633
- Title: LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
- Title(参考訳): LLMはデモ構造から推論を簡単に学べるが、内容ではなく、それが重要だ!
- Authors: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Eric Tang, Sumanth Hegde, Kourosh Hakhamaneshi, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica,
- Abstract要約: 大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
- 参考スコア(独自算出の注目度): 53.84130385074551
- License:
- Abstract: Large reasoning models (LRMs) tackle complex reasoning problems by following long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking, and self-validation. However, the training techniques and data requirements to elicit Long CoT remain poorly understood. In this work, we find that a Large Language model (LLM) can effectively learn Long CoT reasoning through data-efficient supervised fine-tuning (SFT) and parameter-efficient low-rank adaptation (LoRA). With just 17k long CoT training samples, the Qwen2.5-32B-Instruct model achieves significant improvements on a wide range of math and coding benchmarks, including 56.7% (+40.0%) on AIME 2024 and 57.0% (+8.1%) on LiveCodeBench, competitive to the proprietary o1-preview model's score of 44.6% and 59.1%. More importantly, we find that the structure of Long CoT is critical to the learning process, whereas the content of individual reasoning steps has minimal impact. Perturbations affecting content, such as training on incorrect samples or removing reasoning keywords, have little impact on performance. In contrast, structural modifications that disrupt logical consistency in the Long CoT, such as shuffling or deleting reasoning steps, significantly degrade accuracy. For example, a model trained on Long CoT samples with incorrect answers still achieves only 3.2% lower accuracy compared to training with fully correct samples. These insights deepen our understanding of how to elicit reasoning capabilities in LLMs and highlight key considerations for efficiently training the next generation of reasoning models. This is the academic paper of our previous released Sky-T1-32B-Preview model. Codes are available at https://github.com/NovaSky-AI/SkyThought.
- Abstract(参考訳): 大きな推論モデル(LRM)は、リフレクション、バックトラック、自己検証を含む長いチェーン・オブ・シント(Long CoT)に従うことで複雑な推論問題に対処する。
しかしながら、Long CoTを誘発するトレーニング技術とデータ要件は、いまだに理解されていない。
本研究では,大規模言語モデル (LLM) が,データ効率の高い教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
わずか17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、AIME 2024で56.7%(+40.0%)、LiveCodeBenchで57.0%(+8.1%)、プロプライエタリなo1-previewモデルのスコア44.6%と59.1%など、幅広い数学とコーディングベンチマークで大幅な改善を実現している。
さらに重要なのは、Long CoTの構造が学習プロセスに不可欠であるのに対して、個々の推論ステップの内容は最小限の影響しか与えないことです。
誤ったサンプルのトレーニングや推論キーワードの削除など、コンテンツに影響する摂動は、パフォーマンスにはほとんど影響しない。
対照的に、Long CoTの論理的一貫性を損なう構造的変更(シャッフルや推論ステップの削除など)は、精度を著しく低下させる。
例えば、誤った答えを持つロングCoTサンプルでトレーニングされたモデルは、完全に正しいサンプルを持つトレーニングと比較してわずか3.2%の精度しか達成できない。
これらの知見は、LLMにおける推論能力の活用方法の理解を深め、次世代の推論モデルを効率的に訓練するための重要な考慮点を浮き彫りにする。
これは、前回リリースしたSky-T1-32B-Previewモデルの学術論文です。
コードはhttps://github.com/NovaSky-AI/SkyThought.comで公開されている。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation [88.77999917897702]
OpenAIのo1は、驚くべき推論機能を示している。
多くのチームがLongCoTと推論機能を再現しようと試みている。
本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T08:19:59Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。
我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。
実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-30T06:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。