論文の概要: LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
- arxiv url: http://arxiv.org/abs/2502.07374v1
- Date: Tue, 11 Feb 2025 08:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:03.226206
- Title: LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
- Title(参考訳): LLMはデモ構造から推論を簡単に学べるが、内容ではなく、それが重要だ!
- Authors: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica,
- Abstract要約: 大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
- 参考スコア(独自算出の注目度): 56.75518291450102
- License:
- Abstract: Large reasoning models (LRMs) tackle complex reasoning problems by following long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking, and self-validation. However, the training techniques and data requirements to elicit Long CoT remain poorly understood. In this work, we find that a Large Language model (LLM) can effectively learn Long CoT reasoning through data-efficient supervised fine-tuning (SFT) and parameter-efficient low-rank adaptation (LoRA). With just 17k long CoT training samples, the Qwen2.5-32B-Instruct model achieves significant improvements on a wide range of math and coding benchmarks, including 56.7% (+40.0%) on AIME 2024 and 57.0% (+8.1%) on LiveCodeBench, competitive to the proprietary o1-preview model's score of 44.6% and 59.1%. More importantly, we find that the structure of Long CoT is critical to the learning process, whereas the content of individual reasoning steps has minimal impact. Perturbations affecting content, such as training on incorrect samples or removing reasoning keywords, have little impact on performance. In contrast, structural modifications that disrupt logical consistency in the Long CoT, such as shuffling or deleting reasoning steps, significantly degrade accuracy. For example, a model trained on Long CoT samples with incorrect answers still achieves only 3.2% lower accuracy compared to training with fully correct samples. These insights deepen our understanding of how to elicit reasoning capabilities in LLMs and highlight key considerations for efficiently training the next generation of reasoning models. This is the academic paper of our previous released Sky-T1-32B-Preview model. Codes are available at https://github.com/NovaSky-AI/SkyThought.
- Abstract(参考訳): 大きな推論モデル(LRM)は、リフレクション、バックトラック、自己検証を含む長いチェーン・オブ・シント(Long CoT)に従うことで複雑な推論問題に対処する。
しかしながら、Long CoTを誘発するトレーニング技術とデータ要件は、いまだに理解されていない。
本研究では,大規模言語モデル (LLM) が,データ効率の高い教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
わずか17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、AIME 2024で56.7%(+40.0%)、LiveCodeBenchで57.0%(+8.1%)、プロプライエタリなo1-previewモデルのスコア44.6%と59.1%など、幅広い数学とコーディングベンチマークで大幅な改善を実現している。
さらに重要なのは、Long CoTの構造が学習プロセスに不可欠であるのに対して、個々の推論ステップの内容は最小限の影響しか与えないことです。
誤ったサンプルのトレーニングや推論キーワードの削除など、コンテンツに影響する摂動は、パフォーマンスにはほとんど影響しない。
対照的に、Long CoTの論理的一貫性を損なう構造的変更(シャッフルや推論ステップの削除など)は、精度を著しく低下させる。
例えば、誤った答えを持つロングCoTサンプルでトレーニングされたモデルは、完全に正しいサンプルを持つトレーニングと比較してわずか3.2%の精度しか達成できない。
これらの知見は、LLMにおける推論能力の活用方法の理解を深め、次世代の推論モデルを効率的に訓練するための重要な考慮点を浮き彫りにする。
これは、前回リリースしたSky-T1-32B-Previewモデルの学術論文です。
コードはhttps://github.com/NovaSky-AI/SkyThought.comで公開されている。
関連論文リスト
- Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Deeper Insights Without Updates: The Power of In-Context Learning Over Fine-Tuning [22.341935761925892]
ファインチューニングとインコンテキスト学習(ICL)は、タスク固有の知識で大きな言語モデルを出力する2つの一般的な方法である。
暗黙的なパターンを持つタスクに対して、ICLはこれらのパターンを微調整よりもはるかによくキャプチャする。
論文 参考訳(メタデータ) (2024-10-07T02:12:22Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。
我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。
実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-30T06:32:11Z) - Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning [31.110005898556892]
大きな言語モデル(LLM)は印象的な能力を示しているが、それでも数学の推論に苦戦している。
我々はCoT-Influxを提案する。これはCoT学習の境界を押し上げる新しいアプローチである。
CoT-Influxは、CoTの実例と簡潔な例の入力を最大化するために粗いプルーナーを使用する。
論文 参考訳(メタデータ) (2023-12-14T13:03:13Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。