論文の概要: FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2402.12692v4
- Date: Tue, 08 Oct 2024 07:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:35.889937
- Title: FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning
- Title(参考訳): フォーミュラ推論:フォーミュラベース数値推論のためのデータセット
- Authors: Xiao Li, Bolin Zhu, Sichen Liu, Yin Zhu, Yiwei Liu, Gong Cheng,
- Abstract要約: 我々は,5,420の推論に基づく質問からなるフォーミュラ推論という,式に基づく数値推論のためのデータセットを構築した。
ゼロショットおよび少数ショットチェーン・オブ・シント法を用いて, 7B から 100B 以上のパラメータで LLM の評価を行う。
また、データセットに関連付けられた外部公式データベースを備えた検索拡張LDMについても検討する。
- 参考スコア(独自算出の注目度): 14.0148122484585
- License:
- Abstract: The application of formulas is a fundamental ability of humans when addressing numerical reasoning problems. However, existing numerical reasoning datasets seldom indicate explicitly the formulas employed during the reasoning steps. To bridge this gap, we construct a dataset for formula-based numerical reasoning called FormulaReasoning, which consists of 5,420 reasoning-based questions. We employ it to conduct evaluations of LLMs with size ranging from 7B to over 100B parameters utilizing zero-shot and few-shot chain-of-thought methods, and we further explore using retrieval-augmented LLMs provided with an external formula database associated with our dataset. We also experiment with supervised methods where we divide the reasoning process into formula generation, parameter extraction, and numerical calculation, and perform data augmentation. Our empirical findings underscore the significant potential for improvement in existing models when applied to our challenging, formula-driven FormulaReasoning.
- Abstract(参考訳): 公式の適用は、数値推論問題に対処する際の人間の基本的な能力である。
しかし、既存の数値推論データセットは、推論ステップで使われる公式を明確に示すことは滅多にない。
このギャップを埋めるために、フォーミュラ推論と呼ばれる公式に基づく数値推論のためのデータセットを構築し、これは5,420の推論に基づく質問からなる。
ゼロショット, 少数ショットチェーン・オブ・思想的手法を用いて, 7B から 100B 以上のパラメータを持つ LLM の評価を行い, さらに, このデータセットに付随する外部式データベースを備えた検索拡張 LLM を用いて検討する。
また,解析過程を公式生成,パラメータ抽出,数値計算に分割し,データ拡張を行う教師付き手法の実験を行った。
我々の経験的発見は、我々の挑戦的で公式駆動型フォーミュラ推論に適用した場合、既存のモデルの改善の有意な可能性を裏付けている。
関連論文リスト
- ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning
Processes [55.2326738851157]
Enhancing NumeriCal reasOning with Reliable procEsses (Encore)を導入する。
我々は、モデルが合成データを用いて推論プロセスの生成を学習するのに役立つ一連の事前学習タスクを提案する。
実験の結果、Encoreは平均1.8%の5つの実験データセットに改善をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-16T13:02:11Z) - Engineering an Exact Pseudo-Boolean Model Counter [38.901687092266094]
そこで我々は,代数的決定図を用いた知識コンパイル手法に依存する,最初の正確なPseudo-BooleanモデルカウンタPBCountを提案する。
PBCountは1513インスタンスのカウントを計算できるが、現状のアプローチでは1013インスタンスしか処理できない。
論文 参考訳(メタデータ) (2023-12-19T17:14:06Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - Bayesian Quadrature on Riemannian Data Manifolds [79.71142807798284]
データに固有の非線形幾何学構造をモデル化する原則的な方法が提供される。
しかし、これらの演算は通常計算的に要求される。
特に、正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。
先行知識と活発な探索手法を両立させることで,BQは必要な評価回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-02-12T17:38:04Z) - Towards Question Format Independent Numerical Reasoning: A Set of
Prerequisite Tasks [23.72187153601608]
NUMBERGAMEは,8種類の多種形式の数値推論タスクにまたがるモデル性能を評価するための多面的ベンチマークである。
私たちが新たに加えた2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。
より実用的な数値推論システムを構築するために、NUMBERGAMEは数値推論以外の4つの機能を必要としている。
論文 参考訳(メタデータ) (2020-05-18T08:14:04Z) - An approximate KLD based experimental design for models with intractable
likelihoods [1.8275108630751844]
本研究では, 確率が閉形式で利用できない特殊な統計実験設計(ED)問題を考察する。
KLD(Kulback-Leibler divergence)に基づく設計基準は、可能性関数の評価を必要とするため、直接使用することはできない。
この問題に対処するため、我々は元のKLDユーティリティの下位境界である新しいユーティリティ関数を導出する。
論文 参考訳(メタデータ) (2020-04-01T21:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。