論文の概要: VERIFY-RL: Verifiable Recursive Decomposition for Reinforcement Learning in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2602.07559v1
- Date: Sat, 07 Feb 2026 14:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.691433
- Title: VERIFY-RL: Verifiable Recursive Decomposition for Reinforcement Learning in Mathematical Reasoning
- Title(参考訳): VERIFY-RL:数学的推論における強化学習のための検証可能な再帰的分解
- Authors: Kaleem Ullah Qasim, Jiashu Zhang, Hao Li, Muhammad Kafeel Shaheen,
- Abstract要約: 複雑な数学的問題を解決するための言語モデルを訓練することは、より単純なサブプロブレムのカリキュラム学習から恩恵を受ける。
既存の分解法はしばしば、サブプロブレムが単純であること、それを解くことが親のタスクを助けること、あるいはそれらの関係が数学的に基礎化されていることを保証しない。
規則は、式が証明可能な性質を持つより単純な構成要素にどのように還元されるかを明確に定義する。
- 参考スコア(独自算出の注目度): 7.366814176371846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training language models to solve complex mathematical problems benefits from curriculum learning progressively training on simpler subproblems. However, existing decomposition methods are often heuristic, offering no guarantees that subproblems are simpler, that solving them aids the parent task, or that their relationships are mathematically grounded. We observe that symbolic differentiation provides a natural structure for verified decomposition: calculus rules explicitly define how expressions reduce to simpler components with provable properties. We introduce Verify-RL, a framework where every parent-child decomposition satisfies three verifiable conditions: strictly decreasing structural complexity, solution containment, and formal rule derivation. Unlike heuristic methods where a significant fraction of decompositions are invalid our properties admit automatic verification through symbolic computation, achieving "verification by construction" Experiments demonstrate that eliminating invalid decompositions yields sizable gains, accuracy on the hardest problems more than doubles from 32% to 68%, with a 40% relative improvement overall.
- Abstract(参考訳): 複雑な数学的問題を解決するための言語モデルを訓練することは、より単純なサブプロブレムのカリキュラム学習から恩恵を受ける。
しかし、既存の分解法はしばしばヒューリスティックであり、サブプロブレムが単純であること、それを解決することは親のタスクを助けること、あるいはそれらの関係が数学的に基礎づけられていることを保証しない。
計算規則は、式が証明可能な性質を持つより単純な構成要素にどのように還元されるかを明確に定義する。
各親子の分解が3つの検証可能な条件を満たす枠組みであるVerify-RLを導入する。
かなりの数の分解が無効なヒューリスティック手法とは異なり、我々の特性は記号計算による自動検証を許容するが、"構築による検証"実験により、無効な分解を除去すると、大きなゲインが得られ、最も難しい問題の精度が32%から68%に向上し、全体の40%の相対的な改善が達成されることを示した。
関連論文リスト
- From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - Decompose-and-Formalise: Recursively Verifiable Natural Language Inference [34.505373718498014]
ニューロシンボリックパイプラインにおける定理プロバー(TP)を持つ大言語モデル(LLM)は、自然言語推論(NLI)の検証と証明誘導による説明の洗練に役立つ
本稿では,前提と仮説のペアを包含木に分解する分解・形式化フレームワークを提案する。
また、一貫性のある引数-ロールバインディングを強制するために、イベントベースの論理形式に$-substitutionを導入します。
論文 参考訳(メタデータ) (2026-01-27T13:43:30Z) - Softly Induced Functional Simplicity: Implications for Neural Network Generalisation, Robustness, and Distillation [0.0]
高次元入力データから堅牢で一般化可能な抽象化を学ぶことは、機械学習における中心的な課題である。
誘導バイアスに関するソフト対称性は損失に近似した退化を生じさせ、擬ゴールドストーンモードと同定する。
以上の結果から, より一般化可能で, 堅牢で, 効率的に蒸留できる抽象概念が導出されることが示唆された。
論文 参考訳(メタデータ) (2026-01-10T14:44:46Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Ineq-Comp: Benchmarking Human-Intuitive Compositional Reasoning in Automated Theorem Proving on Inequalities [46.111273938884295]
本研究では,AM/GMのような既知の不等式を適用することにより,与えられた問題が単純化されることを認識するプロバーの能力について検討する。
これらの問題は人間にとって容易なままだが、Goedel、書き直し、Kimina-7Bを含むほとんどのプローバーは、かなり苦労している。
我々の結果は、現在のAIプロデューサの行動と人間の直感の間に持続的なギャップを露呈する。
論文 参考訳(メタデータ) (2025-05-19T03:56:05Z) - MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
MathGAPは、それらの算術的証明構造に関する仕様に従って、問題文と連鎖推論トレースを生成する。
MathGAP を用いて, LLM はより深く, より広くなるにつれて, 性能が著しく低下することがわかった。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z) - A Hybrid System for Systematic Generalization in Simple Arithmetic
Problems [70.91780996370326]
本稿では,記号列に対する合成的および体系的推論を必要とする算術的問題を解くことができるハイブリッドシステムを提案する。
提案システムは,最も単純なケースを含むサブセットでのみ訓練された場合においても,ネストした数式を正確に解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-29T18:35:41Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Exploring Decomposition for Table-based Fact Verification [18.584226291619217]
複雑な文を単純なサブプロブレムに分解することで事実検証を改善する。
提案手法は,TabFactベンチマークにおいて,82.7%の精度で最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-22T20:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。