論文の概要: Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems
- arxiv url: http://arxiv.org/abs/2504.09763v2
- Date: Mon, 21 Jul 2025 14:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 14:33:32.027504
- Title: Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems
- Title(参考訳): Executable Functional Abstractions: Infering Generative Programs for Advanced Math Problems
- Authors: Zaid Khan, Elias Stengel-Eskin, Archiki Prasad, Jaemin Cho, Mohit Bansal,
- Abstract要約: EFA(Executable Functional Abstraction)という用語を導入し,数学問題のプログラムを示す。
本研究では,与えられた種問題と解に対するEFAを自動的に推論するタスクを運用するEFAGenを開発する。
EFAGenが推定するEFAはシード問題に忠実であり、学習可能な問題のバリエーションを生じさせ、EFAGenは多様な競合レベルの数学問題の源泉をまたいでEFAを推測できることを示した。
- 参考スコア(独自算出の注目度): 61.26070215983157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientists often infer abstract procedures from specific instances of problems and use the abstractions to generate new, related instances. For example, programs encoding the formal rules and properties of a system have been useful in fields ranging from reinforcement learning (procedural environments) to physics (simulation engines). These programs can be seen as functions which execute to different outputs based on their parameterizations (e.g., gridworld configuration or initial physical conditions). We introduce the term EFA (Executable Functional Abstraction) to denote such programs for math problems. EFA-like constructs have been shown to be useful for mathematical reasoning as problem generators for stress-testing models. However, prior work has been limited to automatically constructing abstractions for grade-school math (whose simple rules are easy to encode in programs), while generating EFAs for advanced math has thus far required human engineering. We explore the automatic construction of EFAs for advanced mathematics problems by developing EFAGen, which operationalizes the task of automatically inferring an EFA for a given seed problem and solution as a program synthesis task. We first formalize the properties of any valid EFA as executable unit tests. Using execution feedback from the unit tests, we search over candidate programs sampled from a LLM to find EFA programs that are faithful to the generalized problem and solution class underlying the seed problem. We then apply the tests as a reward signal, training LLMs to become better writers of EFAs. We show that EFAs inferred by EFAGen are faithful to the seed problems, produce learnable problem variations, and that EFAGen can infer EFAs across diverse sources of competition-level math problems. Finally, we show uses of model-written EFAs e.g., finding harder/easier problem variants, as well as data generation.
- Abstract(参考訳): 科学者はしばしば、問題の特定の事例から抽象的な手順を推論し、新しい関連するインスタンスを生成するために抽象化を使用する。
例えば、システムの形式的規則と特性を符号化するプログラムは、強化学習(手続き的環境)から物理(シミュレーションエンジン)まで様々な分野で有用である。
これらのプログラムは、パラメータ化(例えば、グリッドワールドの構成や初期物理条件)に基づいて異なる出力を実行する関数と見なすことができる。
EFA(Executable Functional Abstraction)という用語を導入し,数学問題のプログラムを示す。
EFAのような構造は、ストレステストモデルの問題生成器として数学的推論に有用であることが示されている。
しかし、それまでの作業は、小学校数学の抽象概念(単純な規則でプログラムをエンコードし易い)を自動で構築することに限定されていたが、高度な数学のEFAを生成するには人間工学が必要であった。
本研究では、与えられた種問題に対するEFAを自動的に推論するタスクをプログラム合成タスクとして運用するEFAGenを開発することにより、高度な数学問題に対するEFAの自動構築について検討する。
まず、有効なEFAの特性を実行可能な単体テストとして定式化する。
単体テストからの実行フィードバックを用いて、LLMからサンプリングした候補プログラムを探索し、一般化された問題に忠実なEFAプログラムと、シード問題の根底にある解クラスを探索する。
次に、報奨信号としてテストを適用し、ESAのより良いライターになるためにLSMを訓練します。
EFAGenが推定するEFAはシード問題に忠実であり、学習可能な問題のバリエーションを生じさせ、EFAGenは多様な競合レベルの数学問題の源泉をまたいでEFAを推測できることを示した。
最後に、モデル記述型EFA(eg)の使用、より困難で簡単な問題変種の検出、およびデータ生成について述べる。
関連論文リスト
- Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [68.00108157244952]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。
有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。
生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文 参考訳(メタデータ) (2025-07-22T08:13:01Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。
DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - FEABench: Evaluating Language Models on Multiphysics Reasoning Ability [8.441945838936444]
FEABenchは、有限要素解析(FEA)を用いて物理学、数学、工学の問題をシミュレートし、解決する大規模言語モデル(LLM)とLLMエージェントの能力を評価するためのベンチマークである。
本研究では,自然言語問題の記述を推論し,FEAソフトウェアであるCOMSOL Multiphysics$circledR$を動作させることにより,LLMがこの問題をエンドツーエンドで解決できるかどうかを総合的に評価する手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T17:59:39Z) - PEA: Enhancing LLM Performance on Computational-Reasoning Tasks [21.13926189404758]
本研究では、計算推論問題と呼ばれる重要な推論タスクのクラスを記述し、解決するための形式的なアプローチを紹介する。
このフレームワークはこれらの問題を述語と列挙の構成要素に分解し、LLMを使って特定の述語、列挙、集約ルールに基づいてプログラムを合成する。
実験的な評価により、PEAはベンチマーク計算問題における基礎となるモデルの性能を大幅に向上し、平均精度が約50%向上し、効率が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-16T00:27:05Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - Abstract Operations Research Modeling Using Natural Language Inputs [9.105616622623629]
オペレーションリサーチ(OR)は、数学的モデルを使用して意思決定を強化するが、これらのモデルを開発するには専門家の知識が必要であり、時間を要する可能性がある。
本稿では,Large Language Model (LLM) の最近の進歩を利用して,自然言語を用いて表現された非専門的ユーザクエリからORソリューションを作成し,編集する手法を提案する。
論文 参考訳(メタデータ) (2024-08-14T03:42:53Z) - Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。
すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。
我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文 参考訳(メタデータ) (2024-05-25T19:40:50Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - GPT is becoming a Turing machine: Here are some ways to program it [16.169056235216576]
GPT-3モデルはループを含むプログラムを実行するために起動可能であることを示す。
1つのタスクの例をカバーすることさえできないプロンプトが、アルゴリズム的な振る舞いをトリガーできることを示します。
論文 参考訳(メタデータ) (2023-03-25T00:43:41Z) - NeSIG: A Neuro-Symbolic Method for Learning to Generate Planning Problems [9.176056742068814]
我々はNe SIGを提案し、私たちの知る限り、計画問題を自動的に生成する最初のドメインに依存しない手法を提案する。
マルコフ決定プロセスとして問題生成を定式化し、Deep Reinforcement Learningを用いて2つの生成ポリシーを訓練して問題を生成する。
結果は、Ne SIGがドメイン固有のジェネレータよりもはるかに難しい、有効で多様な問題を自動生成できることを示している。
論文 参考訳(メタデータ) (2023-01-24T19:37:59Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。