論文の概要: Logics-STEM: Empowering LLM Reasoning via Failure-Driven Post-Training and Document Knowledge Enhancement
- arxiv url: http://arxiv.org/abs/2601.01562v1
- Date: Sun, 04 Jan 2026 15:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.533363
- Title: Logics-STEM: Empowering LLM Reasoning via Failure-Driven Post-Training and Document Knowledge Enhancement
- Title(参考訳): Logics-STEM: 失敗駆動後のトレーニングとドキュメント知識の強化によるLLM推論の強化
- Authors: Mingyu Xu, Cheng Fang, Keyue Jiang, Yuqian Zheng, Yanghua Xiao, Baojian Zhou, Qifang Zhao, Suhang Zheng, Xiuwen Zhu, Jiyang Tang, Yongchi Zhao, Yijia Luo, Zhiqi Bai, Yuchi Xu, Wenbo Su, Wei Wang, Bing Zhao, Lin Qu, Xiaoxiao Xu,
- Abstract要約: 本稿では、Logics-STEM-SFT-Datasetに基づいて、最先端の推論モデルであるLogics-STEMを提案する。
Logics-STEMは、STEM関連のベンチマークでは8Bスケールで次のベストモデルよりも平均4.68%向上している。
我々はLogics-STEMモデルとLogics-STEM-SFT-Datasetの両方を公開し、オープンソースコミュニティにおける将来の研究を支援する。
- 参考スコア(独自算出の注目度): 44.62334571633929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Logics-STEM, a state-of-the-art reasoning model fine-tuned on Logics-STEM-SFT-Dataset, a high-quality and diverse dataset at 10M scale that represents one of the largest-scale open-source long chain-of-thought corpora. Logics-STEM targets reasoning tasks in the domains of Science, Technology, Engineering, and Mathematics (STEM), and exhibits exceptional performance on STEM-related benchmarks with an average improvement of 4.68% over the next-best model at 8B scale. We attribute the gains to our data-algorithm co-design engine, where they are jointly optimized to fit a gold-standard distribution behind reasoning. Data-wise, the Logics-STEM-SFT-Dataset is constructed from a meticulously designed data curation engine with 5 stages to ensure the quality, diversity, and scalability, including annotation, deduplication, decontamination, distillation, and stratified sampling. Algorithm-wise, our failure-driven post-training framework leverages targeted knowledge retrieval and data synthesis around model failure regions in the Supervised Fine-tuning (SFT) stage to effectively guide the second-stage SFT or the reinforcement learning (RL) for better fitting the target distribution. The superior empirical performance of Logics-STEM reveals the vast potential of combining large-scale open-source data with carefully designed synthetic data, underscoring the critical role of data-algorithm co-design in enhancing reasoning capabilities through post-training. We make both the Logics-STEM models (8B and 32B) and the Logics-STEM-SFT-Dataset (10M and downsampled 2.2M versions) publicly available to support future research in the open-source community.
- Abstract(参考訳): Logics-STEM-SFT-Datasetに基づく最先端の推論モデルであるLogics-STEMについて述べる。
Logics-STEMは、STEM(Science, Technology, Engineering, and Mathematics)の分野における推論タスクをターゲットにしており、STEM関連のベンチマークでは8Bスケールの次ベットモデルよりも平均4.68%向上している。
データアルゴリズムの共同設計エンジンは、推論の背後にある金の標準分布に適合するように共同最適化されている。
データ面では、Logics-STEM-SFT-Datasetは、アノテーション、重複解消、除染、蒸留、成層化サンプリングを含む品質、多様性、スケーラビリティを保証するために、5段階の精巧に設計されたデータキュレーションエンジンから構築されている。
アルゴリズム的に言えば、我々の失敗駆動後学習フレームワークは、スーパーバイザードファインチューニング(SFT)段階におけるモデル故障領域に関する目標知識検索とデータ合成を利用して、2段目のSFTや強化学習(RL)を効果的にガイドし、目標分布をよりよく適合させる。
Logics-STEMの優れた経験的性能は、大規模オープンソースデータと慎重に設計された合成データを組み合わせるという大きな可能性を明らかにし、ポストトレーニングによる推論能力の向上において、データアルゴリズムの共同設計が重要な役割を担っていることを示している。
Logics-STEMモデル(8Bと32B)とLogics-STEM-SFT-Dataset(10Mと2.2Mのサンプル化)の両方を、オープンソースコミュニティにおける将来の研究をサポートするために公開しています。
関連論文リスト
- Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - Pushing LLMs to Their Logical Reasoning Bound: The Role of Data Reasoning Intensity [59.27594125465172]
データ推論強度 (Data Reasoning Intensity, DRI) は, サンプルの潜在論理的推論複雑性を定量化する新しい指標である。
次に、学習データの論理的推論強度を体系的に強化する再認識最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-09-29T14:20:04Z) - SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond [35.80475408913363]
多様な論理的推論データを大規模に生成するデータ合成フレームワークおよびデータセットであるSynLogicを提案する。
7Bおよび32Bモデルに基づくSynLogicデータセットにおけるRLトレーニングの有効性を検証する。
混合トレーニングモデルは、複数のベンチマークでDeepSeek-R1-Zero-Qwen-32Bより優れています。
論文 参考訳(メタデータ) (2025-05-26T07:59:36Z) - DavIR: Data Selection via Implicit Reward for Large Language Models [62.59514469369608]
DavIRは、学習後の大規模言語モデルのためのモデルベースのデータ選択手法である。
DavIRで選択したAlpacaデータセットの6%は、LLaMAモデルとGemmaモデルの両方を操り、フル52Kデータセットでトレーニングされたモデルと比較すると、優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z) - Automatic inference of fault tree models via multi-objective
evolutionary algorithms [1.189955933770711]
フォールトツリー解析は信頼性工学とリスクアセスメントにおいてよく知られている手法である。
伝統的に、フォールトツリーモデルはドメインの専門家と一緒に手動で構築される。
インダストリアル4.0では、インスペクションとモニタリングデータの利用が増加し、関連する大規模データセットから知識を抽出する技術が開発されている。
本稿では,人間の介入を伴わない障害データセットに含まれる障害機構の完全な表現を実現するために,効率的なFT構造を推論するためのデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T13:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。