論文の概要: FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2402.12692v6
- Date: Tue, 07 Oct 2025 06:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:19.186432
- Title: FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning
- Title(参考訳): フォーミュラ推論:フォーミュラベース数値推論のためのデータセット
- Authors: Xiao Li, Bolin Zhu, Kaiwen Shi, Sichen Liu, Yin Zhu, Yiwei Liu, Gong Cheng,
- Abstract要約: FormulaReasoningは、式ベースの数値推論用に特別に設計された新しいデータセットである。
5,324の質問からなり、外部物理式に基礎を置く数値計算を必要とする。
フォーミュラ推論における様々な推論手法を解析し、異なるアーキテクチャおよび方法論のフレームワークの比較評価に重点を置いている。
- 参考スコア(独自算出の注目度): 12.894941192080616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of formulas (e.g., physics formulas) is a fundamental human ability in solving numerical reasoning problems. Existing numerical reasoning datasets rarely explicitly state the formulas employed, as their questions often rely on implicit commonsense mathematical knowledge. To address this gap, we introduce FormulaReasoning, a new dataset specifically designed for formula-based numerical reasoning. It consists of 5,324 questions that require numerical calculations grounded in external physics formulas. We provide normalized, fine-grained annotations in both English and Chinese, including formula structures, parameter names, symbols, numerical values, and units-curated through extensive manual effort with LLM-assisted validation to ensure high quality. Additionally, we offer a consolidated formula database to serve as an external knowledge source. We analyze various reasoning approaches on FormulaReasoning, with emphasis on comparative evaluation of different architectural and methodological frameworks. Our assessment includes retrieval-augmented methods, approaches that decompose reasoning into formula generation, parameter extraction, and numerical calculation, as well as optimization techniques using preference data. We identify key challenges in formula-based numerical reasoning that require further investigation across different reasoning paradigms, highlighting opportunities for methodological advancement.
- Abstract(参考訳): 公式(例えば物理式)の応用は、数値推論問題を解く基本的な人間の能力である。
既存の数値推論データセットは、しばしば暗黙のコモンセンス数学的知識に依存するため、採用された公式を明示的に記述することは滅多にない。
このギャップに対処するために、フォーミュラ推論を導入し、式ベースの数値推論に特化して設計された新しいデータセットを提案する。
5,324の質問からなり、外部物理式に基礎を置く数値計算を必要とする。
書式構造,パラメータ名,記号,数値値,およびLLM支援による広範囲な手作業によって算出された単位を含む,英語と中国語の両方で正規化された,きめ細かいアノテーションを提供する。
さらに、外部知識源として機能する統合された公式データベースを提供する。
フォーミュラ推論における様々な推論手法を解析し、異なるアーキテクチャおよび方法論のフレームワークの比較評価に重点を置いている。
我々の評価には、検索強化手法、推論を公式生成、パラメータ抽出、数値計算に分解する手法、および選好データを用いた最適化手法が含まれる。
我々は,様々な推論パラダイムにまたがってさらなる調査を必要とする公式ベースの数値推論における重要な課題を特定し,方法論的進歩の機会を強調した。
関連論文リスト
- Beyond Formula Complexity: Effective Information Criterion Improves Performance and Interpretability for Symbolic Regression [28.292981389559372]
記号回帰は与えられたデータを記述するための正確で解釈可能な公式を発見する。
有効情報基準(EIC)は、公式を特定の内部構造を持つ情報処理システムとして扱う。
EICは108人の専門家による公式解釈可能性の選好と70.2%の合意を示し、式中の不合理な構造を測定することで、実際に公式の解釈可能性を反映していることを示した。
論文 参考訳(メタデータ) (2025-09-26T02:32:43Z) - Fortune: Formula-Driven Reinforcement Learning for Symbolic Table Reasoning in Language Models [44.340292033316715]
本稿では,LMを訓練して実行可能なスプレッドシート式を生成する強化学習フレームワークであるフォーミュラチューニングを提案する。
フォーミュラ・タニングは、二項応答の正しさを報奨信号として利用することにより、教師付き公式アノテーションへの依存を減らす。
これは、特に多段階の数値およびシンボリック推論タスクにおいて、LM性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-29T17:13:40Z) - MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。
実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-29T21:24:19Z) - NL2Formula: Generating Spreadsheet Formulas from Natural Language
Queries [29.33149993368329]
本稿では,NL2Formulaと呼ばれる新しいベンチマークタスクを紹介する。
目的は、自然言語(NL)クエリを入力として、スプレッドシートテーブル上にグラウンドされた実行可能な式を生成することである。
我々は,70,799対のNLクエリと対応するスプレッドシート公式からなる包括的データセットを構築し,21,670のテーブルと37種類の公式関数を網羅した。
論文 参考訳(メタデータ) (2024-02-20T05:58:05Z) - Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning
Processes [55.2326738851157]
Enhancing NumeriCal reasOning with Reliable procEsses (Encore)を導入する。
我々は、モデルが合成データを用いて推論プロセスの生成を学習するのに役立つ一連の事前学習タスクを提案する。
実験の結果、Encoreは平均1.8%の5つの実験データセットに改善をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-16T13:02:11Z) - Engineering an Exact Pseudo-Boolean Model Counter [38.901687092266094]
そこで我々は,代数的決定図を用いた知識コンパイル手法に依存する,最初の正確なPseudo-BooleanモデルカウンタPBCountを提案する。
PBCountは1513インスタンスのカウントを計算できるが、現状のアプローチでは1013インスタンスしか処理できない。
論文 参考訳(メタデータ) (2023-12-19T17:14:06Z) - Exploring the Numerical Reasoning Capabilities of Language Models: A
Comprehensive Analysis on Tabular Data [10.124148115680315]
本研究では,4つのレベルに10種類以上の推論型を持つ数値推論スキルのための階層型分類法を提案する。
我々は、それらに特有の推論課題を特定するために、最先端モデルの包括的評価を行う。
以上の結果から,すべての数値推論型に対してモデルが常に排他的でないことが示唆された。
論文 参考訳(メタデータ) (2023-11-03T20:05:30Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - Towards true discovery of the differential equations [57.089645396998506]
微分方程式探索は、解釈可能なモデルを開発するために使用される機械学習サブフィールドである。
本稿では,専門家の入力を伴わない独立方程式発見のための前提条件とツールについて検討する。
論文 参考訳(メタデータ) (2023-08-09T12:03:12Z) - FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文 参考訳(メタデータ) (2023-05-27T15:00:45Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - FORTAP: Using Formulae for Numerical-Reasoning-Aware Table Pretraining [23.747119682226675]
FORTAPは, スプレッドシート公式の大規模コーパスを活用することで, 事前学習を行うための最初の方法である。
FORTAPは、セルタイプ分類と公式予測という、2つの典型的な下流タスクで結果を得る。
論文 参考訳(メタデータ) (2021-09-15T14:31:17Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Bayesian Quadrature on Riemannian Data Manifolds [79.71142807798284]
データに固有の非線形幾何学構造をモデル化する原則的な方法が提供される。
しかし、これらの演算は通常計算的に要求される。
特に、正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。
先行知識と活発な探索手法を両立させることで,BQは必要な評価回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-02-12T17:38:04Z) - Towards Question Format Independent Numerical Reasoning: A Set of
Prerequisite Tasks [23.72187153601608]
NUMBERGAMEは,8種類の多種形式の数値推論タスクにまたがるモデル性能を評価するための多面的ベンチマークである。
私たちが新たに加えた2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。
より実用的な数値推論システムを構築するために、NUMBERGAMEは数値推論以外の4つの機能を必要としている。
論文 参考訳(メタデータ) (2020-05-18T08:14:04Z) - An approximate KLD based experimental design for models with intractable
likelihoods [1.8275108630751844]
本研究では, 確率が閉形式で利用できない特殊な統計実験設計(ED)問題を考察する。
KLD(Kulback-Leibler divergence)に基づく設計基準は、可能性関数の評価を必要とするため、直接使用することはできない。
この問題に対処するため、我々は元のKLDユーティリティの下位境界である新しいユーティリティ関数を導出する。
論文 参考訳(メタデータ) (2020-04-01T21:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。