論文の概要: From Implicit to Explicit: Token-Efficient Logical Supervision for Mathematical Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2601.03682v1
- Date: Wed, 07 Jan 2026 08:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.156884
- Title: From Implicit to Explicit: Token-Efficient Logical Supervision for Mathematical Reasoning in LLMs
- Title(参考訳): 含意から説明へ:LLMにおける数学的推論のためのトークン効率のよい論理的スーパービジョン
- Authors: Shaojie Wang, Liang Zhang,
- Abstract要約: 大規模言語モデル(LLM)は数学的問題解決において限定的な論理的推論能力を示す。
論理的関係理解に関連する誤りは、誤った予測の90%以上を占める。
論理的関係理解を目的とした軽量なトレーニングフレームワークであるFirst-Step Logical Reasoningを提案する。
- 参考スコア(独自算出の注目度): 5.703029996279753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies reveal that large language models (LLMs) exhibit limited logical reasoning abilities in mathematical problem-solving, instead often relying on pattern-matching and memorization. We systematically analyze this limitation, focusing on logical relationship understanding, which is a core capability underlying genuine logical reasoning, and reveal that errors related to this capability account for over 90\% of incorrect predictions, with Chain-of-Thought Supervised Fine-Tuning (CoT-SFT) failing to substantially reduce these errors. To address this bottleneck, we propose First-Step Logical Reasoning (FSLR), a lightweight training framework targeting logical relationship understanding. Our key insight is that the first planning step-identifying which variables to use and which operation to apply-encourages the model to derive logical relationships directly from the problem statement. By training models on this isolated step, FSLR provides explicit supervision for logical relationship understanding, unlike CoT-SFT which implicitly embeds such relationships within complete solution trajectories. Extensive experiments across multiple models and datasets demonstrate that FSLR consistently outperforms CoT-SFT under both in-distribution and out-of-distribution settings, with average improvements of 3.2\% and 4.6\%, respectively. Moreover, FSLR achieves 4-6x faster training and reduces training token consumption by over 80\%.
- Abstract(参考訳): 近年の研究では、大規模言語モデル(LLM)は数学的問題解決において限定的な論理的推論能力を示し、代わりにパターンマッチングと記憶に依存していることが示されている。
我々はこの制限を体系的に分析し、真の論理的推論の根底にある中核的な能力である論理的関係理解に焦点をあて、この能力に関連するエラーが90%以上の誤予測を生んでいることを明らかにした。
このボトルネックに対処するため,論理的関係理解を目的とした軽量なトレーニングフレームワークFSLRを提案する。
私たちのキーとなる洞察は、最初にどの変数を使うべきか、どの操作を適用するのかを段階的に特定し、問題ステートメントから直接論理的関係を導出することです。
この独立したステップでモデルをトレーニングすることで、FSLRは論理的関係理解のための明確な監督を提供する。
複数のモデルとデータセットにわたる大規模な実験により、FSLRは分布内および分布外の両方でCoT-SFTを一貫して上回り、平均的な改善は3.2\%と4.6\%である。
さらに、FSLRは4~6倍高速なトレーニングを実現し、トレーニングトークンの消費を80%以上削減する。
関連論文リスト
- Training LLMs with LogicReward for Faithful and Rigorous Reasoning [75.30425553246177]
定理証明器を用いてステップレベルの論理的正しさを強制することでモデルトレーニングを指導する報酬システムであるLogicRewardを提案する。
LogicRewardで構築されたデータに基づいてトレーニングされた8Bモデルは、GPT-4oとo4-miniを11.6%、自然言語推論と論理的推論タスクで2%超えた。
論文 参考訳(メタデータ) (2025-12-20T03:43:02Z) - RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs [40.196347794452485]
大規模言語モデル(LLM)は通常、推論能力を改善するために、検証可能な報酬(RLVR)を持つ強化学習(RL)によって訓練される。
本稿では,各学習過程において,推論経路を定量化し,定性的な変化を捉える新しい分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:18:57Z) - CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning [25.142128256576985]
注釈付きCoTをベースとしたReinforced Fine-Tuningアプローチ,すなわちTheNameを用いたコントラスト学習を提案し,大規模言語モデルの推論性能を向上させる。
提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、教師なし学習信号を付加することにより微調整手順を安定化する。
論文 参考訳(メタデータ) (2025-08-21T00:20:47Z) - Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。
本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文 参考訳(メタデータ) (2025-08-05T11:48:18Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。