論文の概要: Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows
- arxiv url: http://arxiv.org/abs/2603.14486v1
- Date: Sun, 15 Mar 2026 17:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.843877
- Title: Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows
- Title(参考訳): Infinite Problem Generator: エージェントワークフローによる物理推論データのスケールアップ
- Authors: Aditya Sharan, Sriram Hebbale, Dhruv Kumar,
- Abstract要約: Infinite Problem Generator (IPG) は,物理問題に保証された可解性で合成するエージェントフレームワークである。
IPGは実行可能Pythonプログラムとしてソリューションを構築し、厳密な数学的一貫性を強制する。
我々は165個の専門種から拡張された1,335個の古典力学問題の高忠実度コーパスであるClassicalMechanicsV1をリリースした。
- 参考スコア(独自算出の注目度): 1.3986052226424095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models for complex reasoning is bottlenecked by the scarcity of verifiable, high-quality data. In domains like physics, standard text augmentation often introduces hallucinations, while static benchmarks lack the reasoning traces required for fine-tuning. We introduce the Infinite Problem Generator (IPG), an agentic framework that synthesizes physics problems with guaranteed solvability through a Formula-as-Code paradigm. Unlike probabilistic text generation, IPG constructs solutions as executable Python programs, enforcing strict mathematical consistency. As a proof-of-concept, we release ClassicalMechanicsV1, a high-fidelity corpus of 1,335 classical mechanics problems expanded from 165 expert seeds. The corpus demonstrates high structural diversity, spanning 102 unique physical formulas with an average complexity of 3.05 formulas per problem. Furthermore, we identify a Complexity Blueprint, demonstrating a strong linear correlation ($R^2 \approx 0.95$) between formula count and verification code length. This relationship establishes code complexity as a precise, proxy-free metric for problem difficulty, enabling controllable curriculum generation. We release the full IPG pipeline, the ClassicalMechanicsV1 dataset, and our evaluation report to support reproducible research in reasoning-intensive domains.
- Abstract(参考訳): 複雑な推論のための大規模言語モデルのトレーニングは、検証可能な高品質なデータの不足によってボトルネックとなる。
物理学のような分野では、標準的なテキスト拡張は幻覚をしばしば導入するが、静的ベンチマークは微調整に必要な推論の痕跡を欠いている。
Infinite Problem Generator (IPG) は、フォーミュラ・アズ・コード・パラダイムによって保証された可解性で物理問題を合成するエージェント・フレームワークである。
確率的テキスト生成とは異なり、IPGはPythonプログラムとしてソリューションを構築し、厳密な数学的一貫性を強制する。
概念実証として、165個の専門種から拡張された1,335個の古典力学問題の高忠実度コーパスであるClassicalMechanicsV1をリリースする。
コーパスは、102個の物理式にまたがる高い構造的多様性を示し、平均的な複雑性は1問題当たり3.05個である。
さらに、複素度ブループリントを同定し、公式数と検証符号長との間に強い線形相関(R^2 \approx 0.95$)を示す。
この関係は、問題の難易度に関する正確でプロキシフリーなメトリクスとしてコードの複雑さを確立し、制御可能なカリキュラムの生成を可能にします。
IPGパイプライン、ClassicalMechanicsV1データセット、および推論集約ドメインにおける再現可能な研究を支援するための評価レポートをリリースする。
関連論文リスト
- SymPyBench: A Dynamic Benchmark for Scientific Reasoning with Executable Python Code [7.0748516420242495]
我々は15,045の大学レベルの物理問題(90/10%の列車/テストスプリット)の大規模総合ベンチマークを紹介する。
各問題は完全にパラメータ化され、事実上無限の入力構成をサポートする。
ベンチマークには3つの質問タイプが含まれている: MC-Symbolic (シンボルオプション付き複数選択), MC-Numerical (数値オプション付き複数選択), Free-form (オープンな応答)。
論文 参考訳(メタデータ) (2025-12-05T18:50:48Z) - Chain of Unit-Physics: A Primitive-Centric Approach to Scientific Code Synthesis [0.0]
第一原理(またはプリミティブ)中心のマルチエージェントシステムで、人間の知識をコード生成を明示的に制約する単体物理学テストとしてコード化します。
データセットやモデルが進化するにつれて、ゼロショットコードの精度は向上するが、しかしながら、単位-物理フレームワークの連鎖は、科学的なコードの基本となる第一原理の分析を埋め込むことによってさらに進んでいる。
論文 参考訳(メタデータ) (2025-11-30T18:16:50Z) - Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models [54.29243291958429]
本研究は, 生成前に問題方向を明示的に計画する問題生成装置の開発である。
我々は,合成問題に対する解法者のフィードバックを報奨信号として扱い,生成元が難易度を調整できるようにする。
本手法は平均2.5%の改善を実現し,言語モデルと視覚言語モデルの両方に一般化する。
論文 参考訳(メタデータ) (2025-11-13T03:08:51Z) - Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs [41.29431283264807]
本稿では、厳密な証明問題のスケーラブルな情報源として理論計算機科学(TCS)を活用することを提案する。
本稿では,2つのTCS領域に対して,チューリング機械停止動作の証明を含むベイジービーバー問題(Busy Beaver problem)と,論理と算術の推論を組み合わせた混合ブール算術問題(Mixed Boolean Arithmetic problem)を提案する。
我々のフレームワークは,並列形式 (Lean4) と非公式 (Markdown) 仕様で問題を自動生成し,検証問題を生成するスケーラブルなパイプラインを作成する。
論文 参考訳(メタデータ) (2025-08-21T14:15:40Z) - FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming [19.576944188747166]
FormulaOne(フォーミュラワン)は、グラフ理論、論理、アルゴリズムのベンチマークである。
私たちの問題は非常に要求に富んでおり、いくつかの推論ステップを必要としています。
注目すべきは、OpenAIのo3のような最先端のモデルはF1で完全に失敗することです。
論文 参考訳(メタデータ) (2025-07-17T17:53:55Z) - RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning [95.31714779585272]
DeepMath-103Kは、高い難易度(主に5-9レベル)で設計された大規模な数学的データセットである
これには、多数のベンチマークに対する厳格な除染、ルールベースのRL報酬に対する検証可能な回答が含まれる。
DeepMath-103Kは一般化可能な推論の進展を促進する。
論文 参考訳(メタデータ) (2025-04-15T17:59:51Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
MathGAPは、それらの算術的証明構造に関する仕様に従って、問題文と連鎖推論トレースを生成する。
MathGAP を用いて, LLM はより深く, より広くなるにつれて, 性能が著しく低下することがわかった。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。