論文の概要: SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond
- arxiv url: http://arxiv.org/abs/2505.19641v4
- Date: Wed, 04 Jun 2025 05:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.433225
- Title: SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond
- Title(参考訳): SynLogic: 論理的推論学習のための検証可能な推論データを大規模に合成する
- Authors: Junteng Liu, Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Aili Chen, Shiqi Chen, Yunan Huang, Mozhi Zhang, Pengyu Zhao, Junjie Yan, Junxian He,
- Abstract要約: 多様な論理的推論データを大規模に生成するデータ合成フレームワークおよびデータセットであるSynLogicを提案する。
7Bおよび32Bモデルに基づくSynLogicデータセットにおけるRLトレーニングの有効性を検証する。
混合トレーニングモデルは、複数のベンチマークでDeepSeek-R1-Zero-Qwen-32Bより優れています。
- 参考スコア(独自算出の注目度): 35.80475408913363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances such as OpenAI-o1 and DeepSeek R1 have demonstrated the potential of Reinforcement Learning (RL) to enhance reasoning abilities in Large Language Models (LLMs). While open-source replication efforts have primarily focused on mathematical and coding domains, methods and resources for developing general reasoning capabilities remain underexplored. This gap is partly due to the challenge of collecting diverse and verifiable reasoning data suitable for RL. We hypothesize that logical reasoning is critical for developing general reasoning capabilities, as logic forms a fundamental building block of reasoning. In this work, we present SynLogic, a data synthesis framework and dataset that generates diverse logical reasoning data at scale, encompassing 35 diverse logical reasoning tasks. The SynLogic approach enables controlled synthesis of data with adjustable difficulty and quantity. Importantly, all examples can be verified by simple rules, making them ideally suited for RL with verifiable rewards. In our experiments, we validate the effectiveness of RL training on the SynLogic dataset based on 7B and 32B models. SynLogic leads to state-of-the-art logical reasoning performance among open-source datasets, surpassing DeepSeek-R1-Distill-Qwen-32B by 6 points on BBEH. Furthermore, mixing SynLogic data with mathematical and coding tasks improves the training efficiency of these domains and significantly enhances reasoning generalization. Notably, our mixed training model outperforms DeepSeek-R1-Zero-Qwen-32B across multiple benchmarks. These findings position SynLogic as a valuable resource for advancing the broader reasoning capabilities of LLMs. We open-source both the data synthesis pipeline and the SynLogic dataset at https://github.com/MiniMax-AI/SynLogic.
- Abstract(参考訳): OpenAI-o1やDeepSeek R1といった最近の進歩は、大規模言語モデル(LLM)における推論能力を高めるための強化学習(RL)の可能性を示している。
オープンソースレプリケーションの取り組みは、主に数学的およびコーディングの領域に焦点を当ててきたが、一般的な推論能力を開発するための方法とリソースはいまだに探索されていない。
このギャップの一部は、RLに適した多種多様な検証可能な推論データを集めることによる。
論理が推論の基本的な構成要素を形成するため、論理的推論は一般的な推論能力を開発する上で重要であると仮定する。
本研究では,35種類の論理的推論タスクを含む多種多様な論理的推論データを大規模に生成するデータ合成フレームワークとデータセットであるSynLogicを提案する。
SynLogicアプローチは、調整可能な困難と量でデータの制御された合成を可能にする。
重要なことに、すべての例は単純な規則で検証でき、検証可能な報酬を持つ RL に理想的に適合する。
本研究では,7Bモデルと32Bモデルに基づくSynLogicデータセットにおけるRLトレーニングの有効性を検証する。
SynLogicは、オープンソースのデータセット間で最先端の論理的推論性能をもたらし、BBEHの6ポイントを上回り、DeepSeek-R1-Distill-Qwen-32Bを上回っている。
さらに、SynLogicデータを数学的およびコーディングタスクと組み合わせることで、これらの領域のトレーニング効率が向上し、推論の一般化が著しく向上する。
私たちの混合トレーニングモデルは、複数のベンチマークでDeepSeek-R1-Zero-Qwen-32Bを上回っています。
これらの結果から,SynLogic は LLM のより広範な推論能力を向上するための貴重な資源であると考えられた。
データ合成パイプラインとSynLogicデータセットをhttps://github.com/MiniMax-AI/SynLogicでオープンソースにしています。
関連論文リスト
- X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests [47.271827881215295]
我々は、完全に生成されたタスク、ソリューション、テストケースでコードLLMをトレーニングするための完全な合成アプローチを提案する。
これをサポートするために,我々は機能ベースの合成を活用し,SynthSmithと呼ばれる新しいデータ合成パイプラインを提案する。
SynthSmithは、検証されたソリューションとテストとともに、多種多様な挑戦的なタスクを生成する強力な可能性を示している。
X-Coderモデルシリーズは、LiveCodeBench v5では62.9 avg@8、v6では55.8で、DeepCoder-14B-PreviewとAReal-boba2-14Bを上回っている。
論文 参考訳(メタデータ) (2026-01-11T15:22:33Z) - LogiNumSynth: Synthesizing Joint Logical-Numerical Reasoning Problems for Language Models [14.833385574931855]
LogiNum Synthは、共同論理的推論において習熟を必要とするタスクを合成する自然言語問題シンセサイザーである。
推論の世界豊かさ、論理的推論深度、数値計算の複雑さに対するきめ細かい制御をサポートする。
診断ツールと、統合推論スキルの進歩のための目標監督のソースの両方として機能する。
論文 参考訳(メタデータ) (2025-10-13T06:01:02Z) - Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。
AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。
実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-10-06T09:30:05Z) - Pushing LLMs to Their Logical Reasoning Bound: The Role of Data Reasoning Intensity [59.27594125465172]
データ推論強度 (Data Reasoning Intensity, DRI) は, サンプルの潜在論理的推論複雑性を定量化する新しい指標である。
次に、学習データの論理的推論強度を体系的に強化する再認識最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-09-29T14:20:04Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis [9.47779155214011]
推論指向RL学習における自動データスケーリングのためのスケーラブルで保証されたパイプラインであるSynthRLを提案する。
実験により,SynthRLのスケーラビリティと有効性を示す。
合成データを用いて訓練されたモデルは、5つの領域外視覚数学推論ベンチマークで一貫したゲインを得る。
論文 参考訳(メタデータ) (2025-06-02T17:45:16Z) - FOL-Pretrain: A complexity annotated corpus of first-order logic [16.061040115094592]
トランスフォーマーベースの大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMの振る舞いをリバースエンジニアリングしようとする最近の試みにもかかわらず、これらのモデルがどのように複雑なアルゴリズムの内部化と実行を行うかについての理解は依然として限られている。
本稿では,大規模かつ完全にオープンな,一階述語論理推論トレースの複雑性アノテーション付きデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-20T21:38:28Z) - RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。
実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。
微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文 参考訳(メタデータ) (2023-10-13T22:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。