論文の概要: NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2507.01921v1
- Date: Wed, 02 Jul 2025 17:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.399841
- Title: NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks
- Title(参考訳): NaturalThoughts: 一般的な推論タスクのための推論トレースの選択と蒸留
- Authors: Yang Li, Youssef Emad, Karthik Padthe, Jack Lanchantin, Weizhe Yuan, Thao Nguyen, Jason Weston, Shang-Wen Li, Dong Wang, Ilia Kulikov, Xian Li,
- Abstract要約: 本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。
データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。
より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
- 参考スコア(独自算出の注目度): 65.70224757972068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that distilling reasoning traces from a larger teacher model via supervised finetuning outperforms reinforcement learning with the smaller student model alone (Guo et al. 2025). However, there has not been a systematic study of what kind of reasoning demonstrations from the teacher are most effective in improving the student model's reasoning capabilities. In this work we curate high-quality "NaturalThoughts" by selecting reasoning traces from a strong teacher model based on a large pool of questions from NaturalReasoning (Yuan et al. 2025). We first conduct a systematic analysis of factors that affect distilling reasoning capabilities, in terms of sample efficiency and scalability for general reasoning tasks. We observe that simply scaling up data size with random sampling is a strong baseline with steady performance gains. Further, we find that selecting difficult examples that require more diverse reasoning strategies is more sample-efficient to transfer the teacher model's reasoning skills. Evaluated on both Llama and Qwen models, training with NaturalThoughts outperforms existing reasoning datasets such as OpenThoughts, LIMO, etc. on general STEM reasoning benchmarks including GPQA-Diamond, MMLU-Pro and SuperGPQA.
- Abstract(参考訳): 近年の研究では、教師モデルによる蒸留による推論の痕跡が、より小さな学生モデルだけで強化学習に優れていることが示されている(Guo et al 2025)。
しかし,学生モデルの推論能力を向上させる上で,教師による推論実証がどのような効果があるのかについては,体系的な研究は行われていない。
本研究は,NaturalReasoning(Yuan et al 2025)からの質問のプールに基づいて,強力な教師モデルから推論トレースを選択することにより,高品質な「NaturalThoughts」をキュレートする。
まず, 蒸留の推理能力に影響を与える因子を, 一般的な推理タスクの試料効率と拡張性の観点から系統的に分析する。
データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインである。
さらに、より多様な推論戦略を必要とする難解な事例を選択することは、教師モデルの推論スキルを伝達するよりサンプリング効率が高いことが判明した。
LlamaとQwenモデルの両方で評価され、NaturalThoughtsによるトレーニングは、GPQA-Diamond、MMLU-Pro、SuperGPQAといった一般的なSTEM推論ベンチマークにおいて、OpenThoughts、LIMOなどの既存の推論データセットよりも優れています。
関連論文リスト
- Evaluating the Logical Reasoning Abilities of Large Reasoning Models [15.009205651973666]
大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。
LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。
実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。
解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
論文 参考訳(メタデータ) (2025-05-17T05:36:14Z) - Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning [12.559028963968247]
モデルの推論能力と公平性との関係について検討する。
より強力な推論能力を持つ大型モデルは、かなり低いステレオタイプバイアスを示す。
本稿では,先進的推論モデルから構造的推論トレースを抽出し,そのような能力を欠いたモデルに注入する手法であるReGiFTを紹介する。
論文 参考訳(メタデータ) (2025-04-08T03:21:51Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。