論文の概要: FormulaQA: A Question Answering Dataset for Formula-Based Numerical
Reasoning
- arxiv url: http://arxiv.org/abs/2402.12692v2
- Date: Wed, 21 Feb 2024 02:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 11:55:51.268614
- Title: FormulaQA: A Question Answering Dataset for Formula-Based Numerical
Reasoning
- Title(参考訳): formulaqa: 公式に基づく数値推論のための質問応答データセット
- Authors: Xiao Li, Sichen Liu, Bolin Zhu, Yin Zhu, Yiwei Liu, Gong Cheng
- Abstract要約: 中学校理科試験におけるフォーミュラQAと呼ばれる式に基づく数値推論のための質問応答データセットを提案する。
また,ゼロショットおよび少数ショットチェーン・オブ・ソート法を用いて,サイズが7Bから100Bを超えるLCMの評価を行った。
我々の経験的発見は、我々の複雑な式駆動型フォーミュラQAに適用した場合、既存のモデルの改善の有意な可能性を裏付けるものである。
- 参考スコア(独自算出の注目度): 14.850316791298614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of formulas is a fundamental ability of humans when
addressing numerical reasoning problems. However, existing numerical reasoning
datasets seldom explicitly indicate the formulas employed during the reasoning
steps. To bridge this gap, we propose a question answering dataset for
formula-based numerical reasoning called FormulaQA, from junior high school
physics examinations. We further conduct evaluations on LLMs with size ranging
from 7B to over 100B parameters utilizing zero-shot and few-shot
chain-of-thoughts methods and we explored the approach of using
retrieval-augmented LLMs when providing an external formula database. We also
fine-tune on smaller models with size not exceeding 2B. Our empirical findings
underscore the significant potential for improvement in existing models when
applied to our complex, formula-driven FormulaQA.
- Abstract(参考訳): 公式の適用は、数値推論問題に対処する際の人間の基本的な能力である。
しかし、既存の数値推論データセットは、推論ステップで使われる公式をはっきりと示さない。
このギャップを埋めるため,中学生の物理実験からフォーミュラQAと呼ばれる式に基づく数値推論のための質問応答データセットを提案する。
さらに, ゼロショットおよび少数ショットチェーン・オブ・シント法を用いて, 7B から 100B 以上のパラメータを持つ LLM の評価を行い, 外部公式データベースを提供する際に, 検索拡張 LLM を用いたアプローチについて検討した。
また,サイズが2bを超えない小型モデルについても微調整を行った。
我々の経験的発見は、我々の複雑な式駆動型フォーミュラQAに適用した場合、既存のモデルの改善の可能性を示すものである。
関連論文リスト
- ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning
Processes [55.2326738851157]
Enhancing NumeriCal reasOning with Reliable procEsses (Encore)を導入する。
我々は、モデルが合成データを用いて推論プロセスの生成を学習するのに役立つ一連の事前学習タスクを提案する。
実験の結果、Encoreは平均1.8%の5つの実験データセットに改善をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-16T13:02:11Z) - Engineering an Exact Pseudo-Boolean Model Counter [38.901687092266094]
そこで我々は,代数的決定図を用いた知識コンパイル手法に依存する,最初の正確なPseudo-BooleanモデルカウンタPBCountを提案する。
PBCountは1513インスタンスのカウントを計算できるが、現状のアプローチでは1013インスタンスしか処理できない。
論文 参考訳(メタデータ) (2023-12-19T17:14:06Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - Bayesian Quadrature on Riemannian Data Manifolds [79.71142807798284]
データに固有の非線形幾何学構造をモデル化する原則的な方法が提供される。
しかし、これらの演算は通常計算的に要求される。
特に、正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。
先行知識と活発な探索手法を両立させることで,BQは必要な評価回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-02-12T17:38:04Z) - Towards Question Format Independent Numerical Reasoning: A Set of
Prerequisite Tasks [23.72187153601608]
NUMBERGAMEは,8種類の多種形式の数値推論タスクにまたがるモデル性能を評価するための多面的ベンチマークである。
私たちが新たに加えた2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。
より実用的な数値推論システムを構築するために、NUMBERGAMEは数値推論以外の4つの機能を必要としている。
論文 参考訳(メタデータ) (2020-05-18T08:14:04Z) - An approximate KLD based experimental design for models with intractable
likelihoods [1.8275108630751844]
本研究では, 確率が閉形式で利用できない特殊な統計実験設計(ED)問題を考察する。
KLD(Kulback-Leibler divergence)に基づく設計基準は、可能性関数の評価を必要とするため、直接使用することはできない。
この問題に対処するため、我々は元のKLDユーティリティの下位境界である新しいユーティリティ関数を導出する。
論文 参考訳(メタデータ) (2020-04-01T21:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。