論文の概要: FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2402.12692v6
- Date: Tue, 07 Oct 2025 06:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:19.186432
- Title: FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning
- Title(参考訳): フォーミュラ推論:フォーミュラベース数値推論のためのデータセット
- Authors: Xiao Li, Bolin Zhu, Kaiwen Shi, Sichen Liu, Yin Zhu, Yiwei Liu, Gong Cheng,
- Abstract要約: FormulaReasoningは、式ベースの数値推論用に特別に設計された新しいデータセットである。
5,324の質問からなり、外部物理式に基礎を置く数値計算を必要とする。
フォーミュラ推論における様々な推論手法を解析し、異なるアーキテクチャおよび方法論のフレームワークの比較評価に重点を置いている。
- 参考スコア(独自算出の注目度): 12.894941192080616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of formulas (e.g., physics formulas) is a fundamental human ability in solving numerical reasoning problems. Existing numerical reasoning datasets rarely explicitly state the formulas employed, as their questions often rely on implicit commonsense mathematical knowledge. To address this gap, we introduce FormulaReasoning, a new dataset specifically designed for formula-based numerical reasoning. It consists of 5,324 questions that require numerical calculations grounded in external physics formulas. We provide normalized, fine-grained annotations in both English and Chinese, including formula structures, parameter names, symbols, numerical values, and units-curated through extensive manual effort with LLM-assisted validation to ensure high quality. Additionally, we offer a consolidated formula database to serve as an external knowledge source. We analyze various reasoning approaches on FormulaReasoning, with emphasis on comparative evaluation of different architectural and methodological frameworks. Our assessment includes retrieval-augmented methods, approaches that decompose reasoning into formula generation, parameter extraction, and numerical calculation, as well as optimization techniques using preference data. We identify key challenges in formula-based numerical reasoning that require further investigation across different reasoning paradigms, highlighting opportunities for methodological advancement.
- Abstract(参考訳): 公式(例えば物理式)の応用は、数値推論問題を解く基本的な人間の能力である。
既存の数値推論データセットは、しばしば暗黙のコモンセンス数学的知識に依存するため、採用された公式を明示的に記述することは滅多にない。
このギャップに対処するために、フォーミュラ推論を導入し、式ベースの数値推論に特化して設計された新しいデータセットを提案する。
5,324の質問からなり、外部物理式に基礎を置く数値計算を必要とする。
書式構造,パラメータ名,記号,数値値,およびLLM支援による広範囲な手作業によって算出された単位を含む,英語と中国語の両方で正規化された,きめ細かいアノテーションを提供する。
さらに、外部知識源として機能する統合された公式データベースを提供する。
フォーミュラ推論における様々な推論手法を解析し、異なるアーキテクチャおよび方法論のフレームワークの比較評価に重点を置いている。
我々の評価には、検索強化手法、推論を公式生成、パラメータ抽出、数値計算に分解する手法、および選好データを用いた最適化手法が含まれる。
我々は,様々な推論パラダイムにまたがってさらなる調査を必要とする公式ベースの数値推論における重要な課題を特定し,方法論的進歩の機会を強調した。
関連論文リスト
- Fortune: Formula-Driven Reinforcement Learning for Symbolic Table Reasoning in Language Models [44.340292033316715]
本稿では,LMを訓練して実行可能なスプレッドシート式を生成する強化学習フレームワークであるフォーミュラチューニングを提案する。
フォーミュラ・タニングは、二項応答の正しさを報奨信号として利用することにより、教師付き公式アノテーションへの依存を減らす。
これは、特に多段階の数値およびシンボリック推論タスクにおいて、LM性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-29T17:13:40Z) - MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - NL2Formula: Generating Spreadsheet Formulas from Natural Language
Queries [29.33149993368329]
本稿では,NL2Formulaと呼ばれる新しいベンチマークタスクを紹介する。
目的は、自然言語(NL)クエリを入力として、スプレッドシートテーブル上にグラウンドされた実行可能な式を生成することである。
我々は,70,799対のNLクエリと対応するスプレッドシート公式からなる包括的データセットを構築し,21,670のテーブルと37種類の公式関数を網羅した。
論文 参考訳(メタデータ) (2024-02-20T05:58:05Z) - Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning
Processes [55.2326738851157]
Enhancing NumeriCal reasOning with Reliable procEsses (Encore)を導入する。
我々は、モデルが合成データを用いて推論プロセスの生成を学習するのに役立つ一連の事前学習タスクを提案する。
実験の結果、Encoreは平均1.8%の5つの実験データセットに改善をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-16T13:02:11Z) - Engineering an Exact Pseudo-Boolean Model Counter [38.901687092266094]
そこで我々は,代数的決定図を用いた知識コンパイル手法に依存する,最初の正確なPseudo-BooleanモデルカウンタPBCountを提案する。
PBCountは1513インスタンスのカウントを計算できるが、現状のアプローチでは1013インスタンスしか処理できない。
論文 参考訳(メタデータ) (2023-12-19T17:14:06Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文 参考訳(メタデータ) (2023-05-27T15:00:45Z) - FORTAP: Using Formulae for Numerical-Reasoning-Aware Table Pretraining [23.747119682226675]
FORTAPは, スプレッドシート公式の大規模コーパスを活用することで, 事前学習を行うための最初の方法である。
FORTAPは、セルタイプ分類と公式予測という、2つの典型的な下流タスクで結果を得る。
論文 参考訳(メタデータ) (2021-09-15T14:31:17Z) - Bayesian Quadrature on Riemannian Data Manifolds [79.71142807798284]
データに固有の非線形幾何学構造をモデル化する原則的な方法が提供される。
しかし、これらの演算は通常計算的に要求される。
特に、正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。
先行知識と活発な探索手法を両立させることで,BQは必要な評価回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-02-12T17:38:04Z) - Towards Question Format Independent Numerical Reasoning: A Set of
Prerequisite Tasks [23.72187153601608]
NUMBERGAMEは,8種類の多種形式の数値推論タスクにまたがるモデル性能を評価するための多面的ベンチマークである。
私たちが新たに加えた2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。
より実用的な数値推論システムを構築するために、NUMBERGAMEは数値推論以外の4つの機能を必要としている。
論文 参考訳(メタデータ) (2020-05-18T08:14:04Z) - An approximate KLD based experimental design for models with intractable
likelihoods [1.8275108630751844]
本研究では, 確率が閉形式で利用できない特殊な統計実験設計(ED)問題を考察する。
KLD(Kulback-Leibler divergence)に基づく設計基準は、可能性関数の評価を必要とするため、直接使用することはできない。
この問題に対処するため、我々は元のKLDユーティリティの下位境界である新しいユーティリティ関数を導出する。
論文 参考訳(メタデータ) (2020-04-01T21:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。