論文の概要: Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training
- arxiv url: http://arxiv.org/abs/2603.02208v1
- Date: Mon, 02 Mar 2026 18:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.049356
- Title: Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training
- Title(参考訳): Reasoning Core: シンボリック事前トレーニングとポストトレーニングのためのスケーラブルな手続き型データ生成スイート
- Authors: Valentin Lacombe, Valentin Quesnel, Damien Sileo,
- Abstract要約: Reasoning Coreは、コア形式ドメイン間で検証可能なシンボリック推論データを手続き的に生成するスケーラブルなスイートである。
各タスクは厳密な検証のための外部解決器と組み合わせられ、カリキュラム設計のための継続的な難易度制御が認められる。
実験によると、Reasoning Coreのデータを事前トレーニングに混ぜることによって、下流の推論が改善され、保存されたり、わずかに改善された言語モデリングの品質が向上する。
- 参考スコア(独自算出の注目度): 2.62112541805429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training on verifiable symbolic data is a promising way to expand the reasoning frontier of language models beyond what standard pre-training corpora provide. Yet existing procedural generators often rely on fixed puzzles or templates and do not deliver the distributional breadth needed at scale. We introduce Reasoning Core, a scalable suite that procedurally generates verifiable symbolic reasoning data across core formal domains: PDDL planning over randomized domains, first-order logic with equality, context-free grammar parsing and generation, causal reasoning over random Bayesian networks, and systems of equations. Each task is paired with an external solver for rigorous verification and admits continuous difficulty control for curriculum design. Examples can optionally include solver-derived reasoning traces, enabling supervised training from the earliest pre-training stages, and the same interface provides verifiable reward functions for reinforcement learning. Our experiments show that mixing Reasoning Core data into pre-training improves downstream reasoning while preserving, or slightly improving, language modeling quality. Zero-shot evaluations confirm these tasks challenge frontier models such as GPT-5. The code and data are publicly available under the MIT license.
- Abstract(参考訳): 検証可能なシンボルデータのトレーニングは、標準的な事前学習コーパスが提供するものを超えて、言語モデルの推論フロンティアを拡張するための有望な方法である。
しかし、既存のプロシージャジェネレータはしばしば固定されたパズルやテンプレートに依存しており、スケールに必要な分散幅を提供していない。
Reasoning Coreは、コア形式ドメインをまたいだ検証可能なシンボリック推論データを手続き的に生成するスケーラブルなスイートである。PDDLは、ランダム化されたドメインを計画し、一階述語論理に等しく、文脈自由な文法解析と生成、ランダムベイズネットワーク上の因果推論、方程式のシステムである。
各タスクは厳密な検証のための外部解決器と組み合わせられ、カリキュラム設計のための継続的な難易度制御が認められる。
例としては、ソルバ由来の推論トレースがあり、初期の事前学習段階からの教師付きトレーニングを可能にし、同じインターフェースが強化学習のための検証可能な報酬関数を提供する。
我々の実験は、Reasoning Coreデータを事前学習に混ぜることで、言語モデリングの品質を保ちながら、下流の推論を改善することを示しています。
ゼロショット評価は、これらのタスクがGPT-5のようなフロンティアモデルに挑戦することを確認する。
コードとデータはMITライセンス下で公開されている。
関連論文リスト
- Propose, Solve, Verify: Self-Play Through Formal Verification [75.44204610186587]
形式的検証が信頼性の高い正当性信号を提供する検証コード生成設定における自己再生について検討する。
本稿では,PSV(Propose, Solve, Verify)という,難易度の高い合成問題を生成可能なプロジェクタと,専門家の反復によって訓練された解決器を作成するための,形式的検証信号を用いた簡単なセルフプレイフレームワークを紹介する。
そこで本研究では,生成した質問数とトレーニングの繰り返し数によるパフォーマンスの尺度を示し,形式的検証と難易度を考慮した提案を,自己再生を成功させる上で不可欠な要素として同定する。
論文 参考訳(メタデータ) (2025-12-20T00:56:35Z) - Generating Verifiable CoT from Execution-Traces [6.634229408414094]
チェーン・オブ・ソート(Chain-of-Thought)のプロンプトは有望だが、現在の総合的なトレーニングデータは重大な弱点に悩まされている。
プログラム実行トレースにCoT生成を直接接地することで、この問題に対処する。
この実行基盤のアプローチは、プログラムが真に計算したものを反映するすべての推論ステップを保証する。
論文 参考訳(メタデータ) (2025-11-28T07:43:43Z) - Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning [2.62112541805429]
Reasoning Coreは、Reinforcement Learning with Verifiable Rewards(RLVR)のための新しいスケーラブルな環境である。
Reasoning Coreは、PDDL計画、一階述語論理、文脈自由文法解析、因果推論、システム方程式解など、中核的な形式ドメイン間の問題を手続き的に生成する。
論文 参考訳(メタデータ) (2025-09-22T17:56:38Z) - Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [78.1575956773948]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。
有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。
生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文 参考訳(メタデータ) (2025-07-22T08:13:01Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。