論文の概要: FERMAT: An Alternative to Accuracy for Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2305.17491v1
- Date: Sat, 27 May 2023 15:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 18:44:16.871086
- Title: FERMAT: An Alternative to Accuracy for Numerical Reasoning
- Title(参考訳): FERMAT:数値推論の精度の代替
- Authors: Jasivan Alex Sivakumar and Nafise Sadat Moosavi
- Abstract要約: 数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
- 参考スコア(独自算出の注目度): 11.893004722079557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While pre-trained language models achieve impressive performance on various
NLP benchmarks, they still struggle with tasks that require numerical
reasoning. Recent advances in improving numerical reasoning are mostly achieved
using very large language models that contain billions of parameters and are
not accessible to everyone. In addition, numerical reasoning is measured using
a single score on existing datasets. As a result, we do not have a clear
understanding of the strengths and shortcomings of existing models on different
numerical reasoning aspects and therefore, potential ways to improve them apart
from scaling them up. Inspired by CheckList (Ribeiro et al., 2020), we
introduce a multi-view evaluation set for numerical reasoning in English,
called FERMAT. Instead of reporting a single score on a whole dataset, FERMAT
evaluates models on various key numerical reasoning aspects such as number
understanding, mathematical operations, and training dependency. Apart from
providing a comprehensive evaluation of models on different numerical reasoning
aspects, FERMAT enables a systematic and automated generation of an arbitrarily
large training or evaluation set for each aspect.The datasets and codes are
publicly available to generate further multi-view data for ulterior tasks and
languages.
- Abstract(参考訳): 事前訓練された言語モデルは、様々なNLPベンチマークで優れたパフォーマンスを達成するが、数値的推論を必要とするタスクには依然として苦戦している。
数値推論の改善の最近の進歩は、数十億のパラメータを含む非常に大きな言語モデルを使用して達成されており、誰でもアクセスできない。
さらに、既存のデータセットの単一スコアを用いて数値推論を測定する。
その結果、異なる数値的推論側面における既存モデルの強みや欠点を明確に理解できないため、それらをスケールアップすることとは別に改善する方法が考えられる。
CheckList (Ribeiro et al., 2020) に触発され, FERMAT と呼ばれる英語の数値推論のための多視点評価セットを導入する。
FERMATはデータセット全体を単一のスコアでレポートする代わりに、数値理解、数学的操作、トレーニング依存など、さまざまな重要な数値推論の側面でモデルを評価する。
FERMATは、異なる数値推論の側面におけるモデルの総合的な評価を提供する以外に、各側面に対する任意の大規模なトレーニングや評価セットの体系的かつ自動生成を可能にし、これらのデータセットとコードは、人工的なタスクや言語のためのさらなるマルチビューデータを生成するために、一般に利用可能である。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Exploring the Numerical Reasoning Capabilities of Language Models: A
Comprehensive Analysis on Tabular Data [10.124148115680315]
本研究では,4つのレベルに10種類以上の推論型を持つ数値推論スキルのための階層型分類法を提案する。
我々は、それらに特有の推論課題を特定するために、最先端モデルの包括的評価を行う。
以上の結果から,すべての数値推論型に対してモデルが常に排他的でないことが示唆された。
論文 参考訳(メタデータ) (2023-11-03T20:05:30Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z) - RuMedBench: A Russian Medical Language Understanding Benchmark [58.99199480170909]
本稿では,複数のタスクタイプをカバーするオープンなロシア語医療言語理解ベンチマークについて述べる。
我々は、新しいタスクのための統一されたフォーマットラベリング、データ分割、評価メトリクスを作成します。
シングルナンバーメトリックは、ベンチマークに対処するモデルの能力を表す。
論文 参考訳(メタデータ) (2022-01-17T16:23:33Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Towards Question Format Independent Numerical Reasoning: A Set of
Prerequisite Tasks [23.72187153601608]
NUMBERGAMEは,8種類の多種形式の数値推論タスクにまたがるモデル性能を評価するための多面的ベンチマークである。
私たちが新たに加えた2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。
より実用的な数値推論システムを構築するために、NUMBERGAMEは数値推論以外の4つの機能を必要としている。
論文 参考訳(メタデータ) (2020-05-18T08:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。