Fugu-MT 論文翻訳(概要): FormulaQA: A Question Answering Dataset for Formula-Based Numerical Reasoning

論文の概要: FormulaQA: A Question Answering Dataset for Formula-Based Numerical Reasoning

arxiv url: http://arxiv.org/abs/2402.12692v2
Date: Wed, 21 Feb 2024 02:17:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 11:55:51.268614
Title: FormulaQA: A Question Answering Dataset for Formula-Based Numerical Reasoning
Title（参考訳）: formulaqa: 公式に基づく数値推論のための質問応答データセット
Authors: Xiao Li, Sichen Liu, Bolin Zhu, Yin Zhu, Yiwei Liu, Gong Cheng
Abstract要約: 中学校理科試験におけるフォーミュラQAと呼ばれる式に基づく数値推論のための質問応答データセットを提案する。また,ゼロショットおよび少数ショットチェーン・オブ・ソート法を用いて,サイズが7Bから100Bを超えるLCMの評価を行った。我々の経験的発見は、我々の複雑な式駆動型フォーミュラQAに適用した場合、既存のモデルの改善の有意な可能性を裏付けるものである。
参考スコア（独自算出の注目度）: 14.850316791298614
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The application of formulas is a fundamental ability of humans when addressing numerical reasoning problems. However, existing numerical reasoning datasets seldom explicitly indicate the formulas employed during the reasoning steps. To bridge this gap, we propose a question answering dataset for formula-based numerical reasoning called FormulaQA, from junior high school physics examinations. We further conduct evaluations on LLMs with size ranging from 7B to over 100B parameters utilizing zero-shot and few-shot chain-of-thoughts methods and we explored the approach of using retrieval-augmented LLMs when providing an external formula database. We also fine-tune on smaller models with size not exceeding 2B. Our empirical findings underscore the significant potential for improvement in existing models when applied to our complex, formula-driven FormulaQA.
Abstract（参考訳）: 公式の適用は、数値推論問題に対処する際の人間の基本的な能力である。しかし、既存の数値推論データセットは、推論ステップで使われる公式をはっきりと示さない。このギャップを埋めるため,中学生の物理実験からフォーミュラQAと呼ばれる式に基づく数値推論のための質問応答データセットを提案する。さらに, ゼロショットおよび少数ショットチェーン・オブ・シント法を用いて, 7B から 100B 以上のパラメータを持つ LLM の評価を行い, 外部公式データベースを提供する際に, 検索拡張 LLM を用いたアプローチについて検討した。また,サイズが2bを超えない小型モデルについても微調整を行った。我々の経験的発見は、我々の複雑な式駆動型フォーミュラQAに適用した場合、既存のモデルの改善の可能性を示すものである。

関連論文リスト

Beyond Formula Complexity: Effective Information Criterion Improves Performance and Interpretability for Symbolic Regression [28.292981389559372]
記号回帰は与えられたデータを記述するための正確で解釈可能な公式を発見する。有効情報基準(EIC)は、公式を特定の内部構造を持つ情報処理システムとして扱う。 EICは108人の専門家による公式解釈可能性の選好と70.2%の合意を示し、式中の不合理な構造を測定することで、実際に公式の解釈可能性を反映していることを示した。
論文参考訳（メタデータ） (2025-09-26T02:32:43Z)
Fortune: Formula-Driven Reinforcement Learning for Symbolic Table Reasoning in Language Models [44.340292033316715]
本稿では,LMを訓練して実行可能なスプレッドシート式を生成する強化学習フレームワークであるフォーミュラチューニングを提案する。フォーミュラ・タニングは、二項応答の正しさを報奨信号として利用することにより、教師付き公式アノテーションへの依存を減らす。これは、特に多段階の数値およびシンボリック推論タスクにおいて、LM性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-05-29T17:13:40Z)
MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文参考訳（メタデータ） (2025-02-17T11:22:24Z)
ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文参考訳（メタデータ） (2024-10-24T18:02:37Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-29T21:24:19Z)
NL2Formula: Generating Spreadsheet Formulas from Natural Language Queries [29.33149993368329]
本稿では,NL2Formulaと呼ばれる新しいベンチマークタスクを紹介する。目的は、自然言語(NL)クエリを入力として、スプレッドシートテーブル上にグラウンドされた実行可能な式を生成することである。我々は,70,799対のNLクエリと対応するスプレッドシート公式からなる包括的データセットを構築し,21,670のテーブルと37種類の公式関数を網羅した。
論文参考訳（メタデータ） (2024-02-20T05:58:05Z)
Enhancing Numerical Reasoning with the Guidance of Reliable Reasoning Processes [55.2326738851157]
Enhancing NumeriCal reasOning with Reliable procEsses (Encore)を導入する。我々は、モデルが合成データを用いて推論プロセスの生成を学習するのに役立つ一連の事前学習タスクを提案する。実験の結果、Encoreは平均1.8%の5つの実験データセットに改善をもたらすことが示された。
論文参考訳（メタデータ） (2024-02-16T13:02:11Z)
Engineering an Exact Pseudo-Boolean Model Counter [38.901687092266094]
そこで我々は,代数的決定図を用いた知識コンパイル手法に依存する,最初の正確なPseudo-BooleanモデルカウンタPBCountを提案する。 PBCountは1513インスタンスのカウントを計算できるが、現状のアプローチでは1013インスタンスしか処理できない。
論文参考訳（メタデータ） (2023-12-19T17:14:06Z)
Exploring the Numerical Reasoning Capabilities of Language Models: A Comprehensive Analysis on Tabular Data [10.124148115680315]
本研究では,4つのレベルに10種類以上の推論型を持つ数値推論スキルのための階層型分類法を提案する。我々は、それらに特有の推論課題を特定するために、最先端モデルの包括的評価を行う。以上の結果から,すべての数値推論型に対してモデルが常に排他的でないことが示唆された。
論文参考訳（メタデータ） (2023-11-03T20:05:30Z)
TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文参考訳（メタデータ） (2023-10-16T08:42:39Z)
Discovering Interpretable Physical Models using Symbolic Regression and Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。 DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-10-10T13:23:05Z)
Towards true discovery of the differential equations [57.089645396998506]
微分方程式探索は、解釈可能なモデルを開発するために使用される機械学習サブフィールドである。本稿では,専門家の入力を伴わない独立方程式発見のための前提条件とツールについて検討する。
論文参考訳（メタデータ） (2023-08-09T12:03:12Z)
FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。 FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文参考訳（メタデータ） (2023-05-27T15:00:45Z)
Towards a Holistic Understanding of Mathematical Questions with Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文参考訳（メタデータ） (2023-01-18T14:23:29Z)
Reflection of Thought: Inversely Eliciting Numerical Reasoning in Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文参考訳（メタデータ） (2022-10-11T00:57:19Z)
FORTAP: Using Formulae for Numerical-Reasoning-Aware Table Pretraining [23.747119682226675]
FORTAPは, スプレッドシート公式の大規模コーパスを活用することで, 事前学習を行うための最初の方法である。 FORTAPは、セルタイプ分類と公式予測という、2つの典型的な下流タスクで結果を得る。
論文参考訳（メタデータ） (2021-09-15T14:31:17Z)
An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文参考訳（メタデータ） (2021-08-09T17:39:09Z)
Bayesian Quadrature on Riemannian Data Manifolds [79.71142807798284]
データに固有の非線形幾何学構造をモデル化する原則的な方法が提供される。しかし、これらの演算は通常計算的に要求される。特に、正規法則上の積分を数値計算するためにベイズ二次(bq)に焦点を当てる。先行知識と活発な探索手法を両立させることで,BQは必要な評価回数を大幅に削減できることを示す。
論文参考訳（メタデータ） (2021-02-12T17:38:04Z)
Towards Question Format Independent Numerical Reasoning: A Set of Prerequisite Tasks [23.72187153601608]
NUMBERGAMEは,8種類の多種形式の数値推論タスクにまたがるモデル性能を評価するための多面的ベンチマークである。私たちが新たに加えた2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。より実用的な数値推論システムを構築するために、NUMBERGAMEは数値推論以外の4つの機能を必要としている。
論文参考訳（メタデータ） (2020-05-18T08:14:04Z)
An approximate KLD based experimental design for models with intractable likelihoods [1.8275108630751844]
本研究では, 確率が閉形式で利用できない特殊な統計実験設計(ED)問題を考察する。 KLD(Kulback-Leibler divergence)に基づく設計基準は、可能性関数の評価を必要とするため、直接使用することはできない。この問題に対処するため、我々は元のKLDユーティリティの下位境界である新しいユーティリティ関数を導出する。
論文参考訳（メタデータ） (2020-04-01T21:18:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。