論文の概要: Exploring the Numerical Reasoning Capabilities of Language Models: A
Comprehensive Analysis on Tabular Data
- arxiv url: http://arxiv.org/abs/2311.02216v1
- Date: Fri, 3 Nov 2023 20:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:00:56.176253
- Title: Exploring the Numerical Reasoning Capabilities of Language Models: A
Comprehensive Analysis on Tabular Data
- Title(参考訳): 言語モデルの数値推論能力の検討:表データに関する包括的分析
- Authors: Mubashara Akhtar, Abhilash Shankarampeta, Vivek Gupta, Arpit Patil,
Oana Cocarascu, Elena Simperl
- Abstract要約: 本研究では,4つのレベルに10種類以上の推論型を持つ数値推論スキルのための階層型分類法を提案する。
我々は、それらに特有の推論課題を特定するために、最先端モデルの包括的評価を行う。
以上の結果から,すべての数値推論型に対してモデルが常に排他的でないことが示唆された。
- 参考スコア(独自算出の注目度): 10.124148115680315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numbers are crucial for various real-world domains such as finance,
economics, and science. Thus, understanding and reasoning with numbers are
essential skills for language models to solve different tasks. While different
numerical benchmarks have been introduced in recent years, they are limited to
specific numerical aspects mostly. In this paper, we propose a hierarchical
taxonomy for numerical reasoning skills with more than ten reasoning types
across four levels: representation, number sense, manipulation, and complex
reasoning. We conduct a comprehensive evaluation of state-of-the-art models to
identify reasoning challenges specific to them. Henceforth, we develop a
diverse set of numerical probes employing a semi-automated approach. We focus
on the tabular Natural Language Inference (TNLI) task as a case study and
measure models' performance shifts. Our results show that no model consistently
excels across all numerical reasoning types. Among the probed models, FlanT5
(few-/zero-shot) and GPT-3.5 (few-shot) demonstrate strong overall numerical
reasoning skills compared to other models. Label-flipping probes indicate that
models often exploit dataset artifacts to predict the correct labels.
- Abstract(参考訳): 数字は金融、経済学、科学といった様々な現実世界の領域にとって重要である。
したがって、言語モデルが様々なタスクを解くためには、数字による理解と推論が不可欠である。
近年、異なる数値ベンチマークが導入されたが、それらは主に特定の数値的な側面に限られている。
本稿では,表現,数感覚,操作,複雑推論の4段階にわたる10以上の推論型を持つ数値推論スキルのための階層型分類法を提案する。
我々は,最新モデルの包括的評価を行い,それら特有の推論課題を特定する。
そこで,我々は半自動アプローチを用いた多種多様な数値プローブを開発した。
我々は,表型自然言語推論(tnli)タスクをケーススタディとして重視し,モデルの性能変化を計測する。
その結果,すべての数値推論型において,モデルが一貫して優れたものはないことがわかった。
調査されたモデルのうち、flant5 (few-/zero-shot) と gpt-3.5 (few-shot) は他のモデルと比較して高い数値推論能力を示している。
ラベルフリッププローブは、モデルがしばしばデータセットアーティファクトを利用して正しいラベルを予測することを示している。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Exploring Internal Numeracy in Language Models: A Case Study on ALBERT [12.431248361369466]
本稿では,トランスフォーマーに基づく言語モデルが内部的に数値データをどう表現するかを研究する手法を提案する。
我々は、これらのモデルが数と順序に対応するトークンを表現するために使用する学習された埋め込みを抽出する。
本研究は,テキストをモデル化するために純粋に訓練された言語モデルを用いて基礎的な数学的概念を導出し,量的推論と交差するNLPアプリケーションへの道を開くことを示唆する。
論文 参考訳(メタデータ) (2024-04-25T12:36:19Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文 参考訳(メタデータ) (2023-05-27T15:00:45Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - Towards Question Format Independent Numerical Reasoning: A Set of
Prerequisite Tasks [23.72187153601608]
NUMBERGAMEは,8種類の多種形式の数値推論タスクにまたがるモデル性能を評価するための多面的ベンチマークである。
私たちが新たに加えた2つのタイプは、外部の数値知識、常識知識、ドメイン知識を必要とする質問に関するものです。
より実用的な数値推論システムを構築するために、NUMBERGAMEは数値推論以外の4つの機能を必要としている。
論文 参考訳(メタデータ) (2020-05-18T08:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。