論文の概要: Towards Question Format Independent Numerical Reasoning: A Set of
Prerequisite Tasks
- arxiv url: http://arxiv.org/abs/2005.08516v1
- Date: Mon, 18 May 2020 08:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 22:46:01.885821
- Title: Towards Question Format Independent Numerical Reasoning: A Set of
Prerequisite Tasks
- Title(参考訳): 問題形式独立な数値推論に向けて:一組の前提課題
- Authors: Swaroop Mishra, Arindam Mitra, Neeraj Varshney, Bhavdeep Sachdeva and
Chitta Baral
- Abstract要約: NUMBERGAMEは,8種類の多種形式の数値推論タスクにまたがるモデル性能を評価するための多面的ベンチマークである。
私たちが新たに加えた2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。
より実用的な数値推論システムを構築するために、NUMBERGAMEは数値推論以外の4つの機能を必要としている。
- 参考スコア(独自算出の注目度): 23.72187153601608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerical reasoning is often important to accurately understand the world.
Recently, several format-specific datasets have been proposed, such as
numerical reasoning in the settings of Natural Language Inference (NLI),
Reading Comprehension (RC), and Question Answering (QA). Several
format-specific models and architectures in response to those datasets have
also been proposed. However, there exists a strong need for a benchmark which
can evaluate the abilities of models, in performing question format independent
numerical reasoning, as (i) the numerical reasoning capabilities we want to
teach are not controlled by question formats, (ii) for numerical reasoning
technology to have the best possible application, it must be able to process
language and reason in a way that is not exclusive to a single format, task,
dataset or domain. In pursuit of this goal, we introduce NUMBERGAME, a
multifaceted benchmark to evaluate model performance across numerical reasoning
tasks of eight diverse formats. We add four existing question types in our
compilation. Two of the new types we add are about questions that require
external numerical knowledge, commonsense knowledge and domain knowledge. For
building a more practical numerical reasoning system, NUMBERGAME demands four
capabilities beyond numerical reasoning: (i) detecting question format directly
from data (ii) finding intermediate common format to which every format can be
converted (iii) incorporating commonsense knowledge (iv) handling data
imbalance across formats. We build several baselines, including a new model
based on knowledge hunting using a cheatsheet. However, all baselines perform
poorly in contrast to the human baselines, indicating the hardness of our
benchmark. Our work takes forward the recent progress in generic system
development, demonstrating the scope of these under-explored tasks.
- Abstract(参考訳): 数値推論は世界を正確に理解するためにしばしば重要である。
近年、自然言語推論(NLI)、読解理解(RC)、質問回答(QA)の設定における数値推論など、形式固有のデータセットが提案されている。
これらのデータセットに対応するいくつかのフォーマット固有のモデルとアーキテクチャも提案されている。
しかし、疑問形式に依存しない数値推論を行う際に、モデルの能力を評価することのできるベンチマークが強く必要である。
(i)我々が教えたい数値推論能力は質問形式によって制御されない。
(ii) 数値推論技術が最高のアプリケーションを持つためには、単一のフォーマット、タスク、データセット、ドメインに限らない方法で言語と推論を処理できなければならない。
この目的を追求するために,多面的ベンチマークである numbergame を導入し,8つの多様な形式の数値推論タスクにおけるモデル性能を評価する。
コンパイルに既存の4つの質問タイプを追加します。
新たに追加された2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。
より実用的な数値推論システムを構築するために、numbergameは数値推論以外の4つの能力を要求する。
(i)データから直接質問形式を検出すること
(ii)すべてのフォーマットを変換できる中間共通フォーマットを見つけること
(iii)常識知識を組み込んだもの
(4) フォーマット間のデータの不均衡を扱う。
ドキュシートを用いた知識探索に基づく新しいモデルを含む,いくつかのベースラインを構築した。
しかしながら、すべてのベースラインは人間のベースラインとは対照的に性能が悪く、ベンチマークの難しさを示している。
我々の研究は、これらの未探索タスクの範囲を実証し、ジェネリックシステム開発における最近の進歩を推し進めている。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning [14.0148122484585]
我々は,5,420の推論に基づく質問からなるフォーミュラ推論という,式に基づく数値推論のためのデータセットを構築した。
ゼロショットおよび少数ショットチェーン・オブ・シント法を用いて, 7B から 100B 以上のパラメータで LLM の評価を行う。
また、データセットに関連付けられた外部公式データベースを備えた検索拡張LDMについても検討する。
論文 参考訳(メタデータ) (2024-02-20T03:39:49Z) - Exploring the Numerical Reasoning Capabilities of Language Models: A
Comprehensive Analysis on Tabular Data [10.124148115680315]
本研究では,4つのレベルに10種類以上の推論型を持つ数値推論スキルのための階層型分類法を提案する。
我々は、それらに特有の推論課題を特定するために、最先端モデルの包括的評価を行う。
以上の結果から,すべての数値推論型に対してモデルが常に排他的でないことが示唆された。
論文 参考訳(メタデータ) (2023-11-03T20:05:30Z) - FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文 参考訳(メタデータ) (2023-05-27T15:00:45Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。