論文の概要: FormulaQA: A Question Answering Dataset for Formula-Based Numerical
Reasoning
- arxiv url: http://arxiv.org/abs/2402.12692v2
- Date: Wed, 21 Feb 2024 02:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 11:55:51.268614
- Title: FormulaQA: A Question Answering Dataset for Formula-Based Numerical
Reasoning
- Title(参考訳): formulaqa: 公式に基づく数値推論のための質問応答データセット
- Authors: Xiao Li, Sichen Liu, Bolin Zhu, Yin Zhu, Yiwei Liu, Gong Cheng
- Abstract要約: 中学校理科試験におけるフォーミュラQAと呼ばれる式に基づく数値推論のための質問応答データセットを提案する。
また,ゼロショットおよび少数ショットチェーン・オブ・ソート法を用いて,サイズが7Bから100Bを超えるLCMの評価を行った。
我々の経験的発見は、我々の複雑な式駆動型フォーミュラQAに適用した場合、既存のモデルの改善の有意な可能性を裏付けるものである。
- 参考スコア(独自算出の注目度): 14.850316791298614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of formulas is a fundamental ability of humans when
addressing numerical reasoning problems. However, existing numerical reasoning
datasets seldom explicitly indicate the formulas employed during the reasoning
steps. To bridge this gap, we propose a question answering dataset for
formula-based numerical reasoning called FormulaQA, from junior high school
physics examinations. We further conduct evaluations on LLMs with size ranging
from 7B to over 100B parameters utilizing zero-shot and few-shot
chain-of-thoughts methods and we explored the approach of using
retrieval-augmented LLMs when providing an external formula database. We also
fine-tune on smaller models with size not exceeding 2B. Our empirical findings
underscore the significant potential for improvement in existing models when
applied to our complex, formula-driven FormulaQA.
- Abstract(参考訳): 公式の適用は、数値推論問題に対処する際の人間の基本的な能力である。
しかし、既存の数値推論データセットは、推論ステップで使われる公式をはっきりと示さない。
このギャップを埋めるため,中学生の物理実験からフォーミュラQAと呼ばれる式に基づく数値推論のための質問応答データセットを提案する。
さらに, ゼロショットおよび少数ショットチェーン・オブ・シント法を用いて, 7B から 100B 以上のパラメータを持つ LLM の評価を行い, 外部公式データベースを提供する際に, 検索拡張 LLM を用いたアプローチについて検討した。
また,サイズが2bを超えない小型モデルについても微調整を行った。
我々の経験的発見は、我々の複雑な式駆動型フォーミュラQAに適用した場合、既存のモデルの改善の可能性を示すものである。
関連論文リスト
- Graph Pruning for Enumeration of Minimal Unsatisfiable Subsets [4.59143974279554]
バイナリ制約の最小不満足な部分集合(MUS)を見つけることは、過剰制約されたシステムの不適合性解析において一般的な問題である。
MUS列挙を高速化するために,学習モデルを用いて公式をプルーする手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:03:45Z) - Divide and Conquer for Large Language Models Reasoning [53.27384085738965]
本稿では,大言語モデルにDivide and Conquer戦略を適用することを提案する。
まず、統計的信頼度スコアに基づいて、質問を異なるサブセットに分割する。
そして、ほぼ解決された集合を修正し、精巧に設計された手法で要求されるニュアンス処理を克服します。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Engineering an Exact Pseudo-Boolean Model Counter [38.901687092266094]
そこで我々は,代数的決定図を用いた知識コンパイル手法に依存する,最初の正確なPseudo-BooleanモデルカウンタPBCountを提案する。
PBCountは1513インスタンスのカウントを計算できるが、現状のアプローチでは1013インスタンスしか処理できない。
論文 参考訳(メタデータ) (2023-12-19T17:14:06Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - Guiding Language Model Math Reasoning with Planning Tokens [128.57605860640948]
各推論ステップの開始時に計画トークンを導入し、モデルのガイドとして機能し、モデルパラメータにそれらの埋め込みを追加する。
提案手法では、トレーニング可能なパラメータ(わずか0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - QUADRo: Dataset and Models for QUestion-Answer Database Retrieval [97.84448420852854]
質問/回答(q/a)ペアのデータベース(DB)が与えられた場合、同じ質問に対してDBをスキャンすることで、対象の質問に答えることができる。
我々は6.3Mのq/aペアからなる大規模DBを構築し、公開質問を用いて、ニューラルIRとq/aペアリランカに基づく新しいシステムを設計する。
我々は、Bing検索エンジン上に構築されたQAシステムという、Webベースの手法とDBベースのアプローチが競合することを示す。
論文 参考訳(メタデータ) (2023-03-30T00:42:07Z) - Injecting Numerical Reasoning Skills into Knowledge Base Question
Answering Models [19.964729281684363]
本稿では,数値推論を考慮した埋め込み型KBQAフレームワークを提案する。
我々は,NT-NSMを作成するために,最先端の埋め込み型KBQAモデルであるNSM上の数値トランスフォーマーを提案する。
KBQAベンチマークの実験では、NT-NSMには数値推論スキルが備わっており、通常の制約された質問に答える際のベースラインを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2021-12-12T01:30:29Z) - Bayesian Quadrature on Riemannian Data Manifolds [79.71142807798284]
データに固有の非線形幾何学構造をモデル化する原則的な方法が提供される。
しかし、これらの演算は通常計算的に要求される。
特に、正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。
先行知識と活発な探索手法を両立させることで,BQは必要な評価回数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-02-12T17:38:04Z) - Towards Question Format Independent Numerical Reasoning: A Set of
Prerequisite Tasks [23.72187153601608]
NUMBERGAMEは,8種類の多種形式の数値推論タスクにまたがるモデル性能を評価するための多面的ベンチマークである。
私たちが新たに加えた2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。
より実用的な数値推論システムを構築するために、NUMBERGAMEは数値推論以外の4つの機能を必要としている。
論文 参考訳(メタデータ) (2020-05-18T08:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。