論文の概要: Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces
- arxiv url: http://arxiv.org/abs/2511.19333v1
- Date: Mon, 24 Nov 2025 17:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.341893
- Title: Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces
- Title(参考訳): 推論を学ぶ: GPT-OSS あるいは DeepSeek R1 Reasoning Traces を用いた LLM のトレーニング
- Authors: Shaltiel Shmidman, Asher Fredman, Oleg Sudakov, Meriem Bendris,
- Abstract要約: テストタイムのスケーリングにより、複雑な問題から推論できる新しいLarge Language Models(LLM)が実現された。
2種類の推論トレースを用いた後学習後の数学問題に対する中規模のLLMの性能の比較を行った。
- 参考スコア(独自算出の注目度): 2.0789230137053014
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Test-time scaling, which leverages additional computation during inference to improve model accuracy, has enabled a new class of Large Language Models (LLMs) that are able to reason through complex problems by understanding the goal, turning this goal into a plan, working through intermediate steps, and checking their own work before answering . Frontier large language models with reasoning capabilities, such as DeepSeek-R1 and OpenAI's gpt-oss, follow the same procedure when solving complex problems by generating intermediate reasoning traces before giving the final answer. Today, these models are being increasingly used to generate reasoning traces that serve as high-quality supervised data for post-training of small and medium-sized language models to teach reasoning capabilities without requiring expensive human curation. In this work, we compare the performance of medium-sized LLMs on Math problems after post-training on two kinds of reasoning traces. We compare the impact of reasoning traces generated by DeepSeek-R1 and gpt-oss LLMs in terms of accuracy and inference efficiency.
- Abstract(参考訳): モデル精度を改善するために推論中にさらなる計算を活用するテストタイムスケーリングは、目標を理解し、この目標を計画化し、中間ステップを通り抜け、答える前に自分自身の作業をチェックすることで、複雑な問題を通じて推論できる、Large Language Models(LLM)の新しいクラスを可能にした。
DeepSeek-R1やOpenAIのgpt-ossのような推論機能を備えた最前線の大規模言語モデルは、最終的な答えを与える前に中間的推論トレースを生成することで複雑な問題を解決する際に同じ手順に従う。
今日では、これらのモデルは、高額な人為的なキュレーションを必要とせず、推論能力を教えるために、中小の言語モデルの訓練後の高品質な教師付きデータとして使われるようになってきている。
本研究では,2種類の推論トレースを用いた後学習後の数学問題に対する中規模のLLMの性能の比較を行った。
我々は,DeepSeek-R1 と gpt-oss LLM が生成する推論トレースの影響を,精度と推論効率の観点から比較した。
関連論文リスト
- Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts [19.518525241726916]
Encode-Think-Decode (ETD) は、トレーニング中の推論関連レイヤの小さなサブセットを反復するようにトレーニングすることで、ベースモデルの推論能力を向上する手法である。
ETDモデルは、GSM8Kで+28.4%、OLMo-2 1Bベースモデルで+36%の相対精度の改善を含む17の推論ベンチマークで大幅に向上した。
論文 参考訳(メタデータ) (2025-10-08T15:58:35Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model [15.542737858152053]
KPDD(Key-Point-Driven Mathematical Reasoning Distillation)を提案する。
KPDDは、問題解決プロセスを3段階に分割することで、SLMの推論性能を向上させる。
実験により、KPDD-CoTは推論能力を大幅に向上し、KPDD-PoTは数学的推論タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-14T11:41:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。