論文の概要: Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems
- arxiv url: http://arxiv.org/abs/2504.09763v1
- Date: Mon, 14 Apr 2025 00:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:56:01.123708
- Title: Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems
- Title(参考訳): Executable Functional Abstractions: Infering Generative Programs for Advanced Math Problems
- Authors: Zaid Khan, Elias Stengel-Eskin, Archiki Prasad, Jaemin Cho, Mohit Bansal,
- Abstract要約: EFA(Executable Functional Abstraction)という用語を導入し,数学問題のプログラムを示す。
EFAのような構造は、ストレステストモデルの問題生成器として数学推論に有用であることが示されている。
高度な数学問題に対するEFAの自動構築について検討する。
- 参考スコア(独自算出の注目度): 61.26070215983157
- License:
- Abstract: Scientists often infer abstract procedures from specific instances of problems and use the abstractions to generate new, related instances. For example, programs encoding the formal rules and properties of a system have been useful in fields ranging from RL (procedural environments) to physics (simulation engines). These programs can be seen as functions which execute to different outputs based on their parameterizations (e.g., gridworld configuration or initial physical conditions). We introduce the term EFA (Executable Functional Abstraction) to denote such programs for math problems. EFA-like constructs have been shown to be useful for math reasoning as problem generators for stress-testing models. However, prior work has been limited to abstractions for grade-school math (whose simple rules are easy to encode in programs), while generating EFAs for advanced math has thus far required human engineering. We explore the automatic construction of EFAs for advanced math problems. We operationalize the task of automatically constructing EFAs as a program synthesis task, and develop EFAGen, which conditions an LLM on a seed math problem and its step-by-step solution to generate candidate EFA programs that are faithful to the generalized problem and solution class underlying the seed problem. Furthermore, we formalize properties any valid EFA must possess in terms of executable unit tests, and show how the tests can be used as verifiable rewards to train LLMs to become better writers of EFAs. We demonstrate that EFAs constructed by EFAGen behave rationally by remaining faithful to seed problems, produce learnable problem variations, and that EFAGen can infer EFAs across multiple diverse sources of competition-level math problems. Finally, we show downstream uses of model-written EFAs e.g. finding problem variations that are harder or easier for a learner to solve, as well as data generation.
- Abstract(参考訳): 科学者はしばしば、問題の特定の事例から抽象的な手順を推論し、新しい関連するインスタンスを生成するために抽象化を使用する。
例えば、システムの形式的な規則と性質を符号化するプログラムは、RL(Produral Environment)から物理(simulation engine)までの分野において有用である。
これらのプログラムは、パラメータ化(例えば、グリッドワールドの構成や初期物理条件)に基づいて異なる出力を実行する関数と見なすことができる。
EFA(Executable Functional Abstraction)という用語を導入し,数学問題のプログラムを示す。
EFAのような構造は、ストレステストモデルの問題生成器として数学推論に有用であることが示されている。
しかし、それまでの作業は小学校数学の抽象化(単純な規則でプログラムをエンコードするのが簡単)に限られていたが、高度な数学のEFAを生成するには人間工学が必要であった。
高度な数学問題に対するEFAの自動構築について検討する。
プログラム合成タスクとしてEFAを自動的に構築するタスクを運用し、シード数学問題にLLMを条件づけたEFAGenとそのステップバイステップソリューションを開発し、一般化された問題に忠実な候補EFAプログラムと、シード問題の根底にあるソリューションクラスを生成する。
さらに、有効なEFAが持たなければならないプロパティを実行可能な単体テストで形式化し、テストがLLMをトレーニングしてEFAのより良いライターになるための検証可能な報酬としてどのように使用できるかを示す。
EFAGenで構築されたEFAは、シード問題に忠実なまま合理的に振る舞い、学習可能な問題のバリエーションを生み出し、EFAGenは競争レベルの数学問題の様々な源をまたいでEFAを推測できることを実証する。
最後に、モデル記述型EFAの下流での使用例を示す。例えば、学習者が解くのが困難または容易な問題変動や、データ生成である。
関連論文リスト
- PEA: Enhancing LLM Performance on Computational-Reasoning Tasks [21.13926189404758]
本研究では、計算推論問題と呼ばれる重要な推論タスクのクラスを記述し、解決するための形式的なアプローチを紹介する。
このフレームワークはこれらの問題を述語と列挙の構成要素に分解し、LLMを使って特定の述語、列挙、集約ルールに基づいてプログラムを合成する。
実験的な評価により、PEAはベンチマーク計算問題における基礎となるモデルの性能を大幅に向上し、平均精度が約50%向上し、効率が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-16T00:27:05Z) - LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。
LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。
これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文 参考訳(メタデータ) (2025-01-30T22:21:12Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines [7.695524275630717]
大規模言語モデル(LLM)は、広範囲の自然言語処理と推論タスクで顕著な機能を示している。
チューリングマシンをエミュレートすることで,LCMがステップバイステップの計算を実行することを学べる構成可能な算術演算フレームワーク(CAEF)を提案する。
評価では, LLaMA 3.1-8B モデル上での7つの一般的な数学的操作に対して, CAEF は100%近い精度を達成している。
論文 参考訳(メタデータ) (2024-10-10T13:23:49Z) - Abstract Operations Research Modeling Using Natural Language Inputs [9.105616622623629]
オペレーションリサーチ(OR)は、数学的モデルを使用して意思決定を強化するが、これらのモデルを開発するには専門家の知識が必要であり、時間を要する可能性がある。
本稿では,Large Language Model (LLM) の最近の進歩を利用して,自然言語を用いて表現された非専門的ユーザクエリからORソリューションを作成し,編集する手法を提案する。
論文 参考訳(メタデータ) (2024-08-14T03:42:53Z) - Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。
すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。
我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文 参考訳(メタデータ) (2024-05-25T19:40:50Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - NeSIG: A Neuro-Symbolic Method for Learning to Generate Planning Problems [9.176056742068814]
我々はNe SIGを提案し、私たちの知る限り、計画問題を自動的に生成する最初のドメインに依存しない手法を提案する。
マルコフ決定プロセスとして問題生成を定式化し、Deep Reinforcement Learningを用いて2つの生成ポリシーを訓練して問題を生成する。
結果は、Ne SIGがドメイン固有のジェネレータよりもはるかに難しい、有効で多様な問題を自動生成できることを示している。
論文 参考訳(メタデータ) (2023-01-24T19:37:59Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。