Fugu-MT 論文翻訳(概要): NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks

論文の概要: NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks

arxiv url: http://arxiv.org/abs/2507.01921v1
Date: Wed, 02 Jul 2025 17:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:23:00.399841
Title: NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks
Title（参考訳）: NaturalThoughts: 一般的な推論タスクのための推論トレースの選択と蒸留
Authors: Yang Li, Youssef Emad, Karthik Padthe, Jack Lanchantin, Weizhe Yuan, Thao Nguyen, Jason Weston, Shang-Wen Li, Dong Wang, Ilia Kulikov, Xian Li,
Abstract要約: 本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
参考スコア（独自算出の注目度）: 65.70224757972068
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work has shown that distilling reasoning traces from a larger teacher model via supervised finetuning outperforms reinforcement learning with the smaller student model alone (Guo et al. 2025). However, there has not been a systematic study of what kind of reasoning demonstrations from the teacher are most effective in improving the student model's reasoning capabilities. In this work we curate high-quality "NaturalThoughts" by selecting reasoning traces from a strong teacher model based on a large pool of questions from NaturalReasoning (Yuan et al. 2025). We first conduct a systematic analysis of factors that affect distilling reasoning capabilities, in terms of sample efficiency and scalability for general reasoning tasks. We observe that simply scaling up data size with random sampling is a strong baseline with steady performance gains. Further, we find that selecting difficult examples that require more diverse reasoning strategies is more sample-efficient to transfer the teacher model's reasoning skills. Evaluated on both Llama and Qwen models, training with NaturalThoughts outperforms existing reasoning datasets such as OpenThoughts, LIMO, etc. on general STEM reasoning benchmarks including GPQA-Diamond, MMLU-Pro and SuperGPQA.
Abstract（参考訳）: 近年の研究では、教師モデルによる蒸留による推論の痕跡が、より小さな学生モデルだけで強化学習に優れていることが示されている(Guo et al 2025)。しかし,学生モデルの推論能力を向上させる上で,教師による推論実証がどのような効果があるのかについては,体系的な研究は行われていない。本研究は,NaturalReasoning(Yuan et al 2025)からの質問のプールに基づいて,強力な教師モデルから推論トレースを選択することにより,高品質な「NaturalThoughts」をキュレートする。まず, 蒸留の推理能力に影響を与える因子を, 一般的な推理タスクの試料効率と拡張性の観点から系統的に分析する。データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインである。さらに、より多様な推論戦略を必要とする難解な事例を選択することは、教師モデルの推論スキルを伝達するよりサンプリング効率が高いことが判明した。 LlamaとQwenモデルの両方で評価され、NaturalThoughtsによるトレーニングは、GPQA-Diamond、MMLU-Pro、SuperGPQAといった一般的なSTEM推論ベンチマークにおいて、OpenThoughts、LIMOなどの既存の推論データセットよりも優れています。

関連論文リスト

Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文参考訳（メタデータ） (2025-08-04T06:54:31Z)
FairReason: Balancing Reasoning and Social Bias in MLLMs [50.618158642714505]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文参考訳（メタデータ） (2025-07-30T19:57:22Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
Evaluating the Logical Reasoning Abilities of Large Reasoning Models [15.009205651973666]
大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。 LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
論文参考訳（メタデータ） (2025-05-17T05:36:14Z)
Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning [12.559028963968247]
モデルの推論能力と公平性との関係について検討する。より強力な推論能力を持つ大型モデルは、かなり低いステレオタイプバイアスを示す。本稿では,先進的推論モデルから構造的推論トレースを抽出し,そのような能力を欠いたモデルに注入する手法であるReGiFTを紹介する。
論文参考訳（メタデータ） (2025-04-08T03:21:51Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences [5.141416267381492]
我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-17T08:59:04Z)
Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文参考訳（メタデータ） (2024-04-10T14:05:44Z)
Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。 MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文参考訳（メタデータ） (2023-11-23T17:09:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。