論文の概要: PuzzleClone: An SMT-Powered Framework for Synthesizing Verifiable Data
- arxiv url: http://arxiv.org/abs/2508.15180v1
- Date: Thu, 21 Aug 2025 02:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.149762
- Title: PuzzleClone: An SMT-Powered Framework for Synthesizing Verifiable Data
- Title(参考訳): PuzzleClone: 検証可能なデータを合成するためのSMTベースのフレームワーク
- Authors: Kai Xiong, Yanwei Huang, Rongjunchen Zhang, Kun Chen, Haipang Wu,
- Abstract要約: PuzzleCloneは、大規模に検証可能なデータのための形式的なフレームワークである。
提案手法は,(1) シードパズルを構造化論理仕様に符号化すること,(2) 体系的変数と制約ランダム化によるスケーラブルな変種を生成すること,(3) 再生機構による有効性を確保すること,の3つの重要なイノベーションを特徴とする。
- 参考スコア(独自算出の注目度): 7.326473705948599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality mathematical and logical datasets with verifiable answers are essential for strengthening the reasoning capabilities of large language models (LLMs). While recent data augmentation techniques have facilitated the creation of large-scale benchmarks, existing LLM-generated datasets often suffer from limited reliability, diversity, and scalability. To address these challenges, we introduce PuzzleClone, a formal framework for synthesizing verifiable data at scale using Satisfiability Modulo Theories (SMT). Our approach features three key innovations: (1) encoding seed puzzles into structured logical specifications, (2) generating scalable variants through systematic variable and constraint randomization, and (3) ensuring validity via a reproduction mechanism. Applying PuzzleClone, we construct a curated benchmark comprising over 83K diverse and programmatically validated puzzles. The generated puzzles span a wide spectrum of difficulty and formats, posing significant challenges to current state-of-the-art models. We conduct post training (SFT and RL) on PuzzleClone datasets. Experimental results show that training on PuzzleClone yields substantial improvements not only on PuzzleClone testset but also on logic and mathematical benchmarks. Post training raises PuzzleClone average from 14.4 to 56.2 and delivers consistent improvements across 7 logic and mathematical benchmarks up to 12.5 absolute percentage points (AMC2023 from 52.5 to 65.0). Our code and data are available at https://github.com/puzzleclone.
- Abstract(参考訳): 検証可能な答えを持つ高品質な数学的および論理的データセットは、大規模言語モデル(LLM)の推論能力を強化するために不可欠である。
最近のデータ拡張技術は大規模なベンチマークの作成を容易にするが、既存のLLM生成データセットは信頼性、多様性、スケーラビリティに制限があることが多い。
これらの課題に対処するため,Satisfiability Modulo Theories (SMT) を用いて検証可能なデータを大規模に合成するための公式なフレームワークである PuzzleClone を紹介した。
提案手法は,(1) シードパズルを構造化論理仕様に符号化すること,(2) 体系的変数と制約ランダム化によるスケーラブルな変種を生成すること,(3) 再生機構による有効性を確保すること,の3つの重要なイノベーションを特徴とする。
PuzzleCloneを応用して,83K以上の多様かつプログラム的に検証されたパズルからなるキュレートされたベンチマークを構築した。
生成されたパズルは幅広い難易度と形式にまたがっており、現在の最先端モデルに重大な課題を生じさせている。
PuzzleCloneデータセットのポストトレーニング(SFTとRL)を行います。
実験結果から,PuzzleCloneテストセットだけでなく,論理および数式ベンチマークにも大幅な改善が得られた。
ポストトレーニングでは、PuzzleCloneの平均値が14.4から56.2に上昇し、7つの論理および数学ベンチマークで一貫した改善が12.5絶対パーセンテージポイント(AMC2023から52.5から65.0まで)までたらされた。
私たちのコードとデータはhttps://github.com/puzzleclone.comで公開されています。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-06-06T16:17:09Z) - SPaRC: A Spatial Pathfinding Reasoning Challenge [7.140449861888235]
SPaRCは空間的および記号的推論を評価するために1,000個の2次元グリッドパスフィンディングパズルのデータセットである。
人間がほぼ完全な精度(ハードパズルでは98.0%、94.5%)を達成するのに対して、o4-miniのような最良の推論モデルは15.8%、ハードパズルでは1.1%)。
論文 参考訳(メタデータ) (2025-05-22T13:53:50Z) - Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。
ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。
提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文 参考訳(メタデータ) (2025-05-20T17:59:31Z) - Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data [7.52830790706506]
このモデルは,高品質な合成データを微調整することで,多段階推論タスクで良好に動作可能であることを示す。
3つの異なるテストデータセットにおけるopen-llama-3Bモデルによる実験結果から、0ショットパス@1に0.44で到達できることが示されている。
論文 参考訳(メタデータ) (2024-06-04T08:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。