Fugu-MT 論文翻訳(概要): Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces

論文の概要: Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces

arxiv url: http://arxiv.org/abs/2511.19333v1
Date: Mon, 24 Nov 2025 17:26:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-25 18:34:25.341893
Title: Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces
Title（参考訳）: 推論を学ぶ: GPT-OSS あるいは DeepSeek R1 Reasoning Traces を用いた LLM のトレーニング
Authors: Shaltiel Shmidman, Asher Fredman, Oleg Sudakov, Meriem Bendris,
Abstract要約: テストタイムのスケーリングにより、複雑な問題から推論できる新しいLarge Language Models(LLM)が実現された。 2種類の推論トレースを用いた後学習後の数学問題に対する中規模のLLMの性能の比較を行った。
参考スコア（独自算出の注目度）: 2.0789230137053014
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Test-time scaling, which leverages additional computation during inference to improve model accuracy, has enabled a new class of Large Language Models (LLMs) that are able to reason through complex problems by understanding the goal, turning this goal into a plan, working through intermediate steps, and checking their own work before answering . Frontier large language models with reasoning capabilities, such as DeepSeek-R1 and OpenAI's gpt-oss, follow the same procedure when solving complex problems by generating intermediate reasoning traces before giving the final answer. Today, these models are being increasingly used to generate reasoning traces that serve as high-quality supervised data for post-training of small and medium-sized language models to teach reasoning capabilities without requiring expensive human curation. In this work, we compare the performance of medium-sized LLMs on Math problems after post-training on two kinds of reasoning traces. We compare the impact of reasoning traces generated by DeepSeek-R1 and gpt-oss LLMs in terms of accuracy and inference efficiency.
Abstract（参考訳）: モデル精度を改善するために推論中にさらなる計算を活用するテストタイムスケーリングは、目標を理解し、この目標を計画化し、中間ステップを通り抜け、答える前に自分自身の作業をチェックすることで、複雑な問題を通じて推論できる、Large Language Models(LLM)の新しいクラスを可能にした。 DeepSeek-R1やOpenAIのgpt-ossのような推論機能を備えた最前線の大規模言語モデルは、最終的な答えを与える前に中間的推論トレースを生成することで複雑な問題を解決する際に同じ手順に従う。今日では、これらのモデルは、高額な人為的なキュレーションを必要とせず、推論能力を教えるために、中小の言語モデルの訓練後の高品質な教師付きデータとして使われるようになってきている。本研究では,2種類の推論トレースを用いた後学習後の数学問題に対する中規模のLLMの性能の比較を行った。我々は,DeepSeek-R1 と gpt-oss LLM が生成する推論トレースの影響を,精度と推論効率の観点から比較した。

関連論文リスト

Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts [19.518525241726916]
Encode-Think-Decode (ETD) は、トレーニング中の推論関連レイヤの小さなサブセットを反復するようにトレーニングすることで、ベースモデルの推論能力を向上する手法である。 ETDモデルは、GSM8Kで+28.4%、OLMo-2 1Bベースモデルで+36%の相対精度の改善を含む17の推論ベンチマークで大幅に向上した。
論文参考訳（メタデータ） (2025-10-08T15:58:35Z)
Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance [33.16322104912836]
大規模言語モデル (LLM) の推論は、主にチェーン・オブ・シント (CoT) のアプローチによるものである。 LLMは、推論に関連する質問に応答するときに、長くて詳細なCoT経路を提供するように、命令調整される。人間は自然に認知的な惨事であり、言語モデルにかなり短い反応を与えるよう促す。
論文参考訳（メタデータ） (2025-04-13T14:12:14Z)
Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models [53.4530106173067]
強化学習(RL)を伴う大規模言語モデル(LLM)は、複雑な推論タスクにおいて有望な改善を示す。 RLは10億のパラメータを持つ小さなLLMでは、効果的に探索するために必要な事前訓練能力が欠如しているため、依然として困難である。この研究は、この課題に対処するためにエピソード記憶を活用する、新しい本質的なモチベーションアプローチを導入する。
論文参考訳（メタデータ） (2025-04-03T04:46:17Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model [15.542737858152053]
KPDD(Key-Point-Driven Mathematical Reasoning Distillation)を提案する。 KPDDは、問題解決プロセスを3段階に分割することで、SLMの推論性能を向上させる。実験により、KPDD-CoTは推論能力を大幅に向上し、KPDD-PoTは数学的推論タスクにおける最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-07-14T11:41:03Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。