論文の概要: DocMath-Eval: Evaluating Numerical Reasoning Capabilities of LLMs in
Understanding Long Documents with Tabular Data
- arxiv url: http://arxiv.org/abs/2311.09805v1
- Date: Thu, 16 Nov 2023 11:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:46:14.559079
- Title: DocMath-Eval: Evaluating Numerical Reasoning Capabilities of LLMs in
Understanding Long Documents with Tabular Data
- Title(参考訳): DocMath-Eval:長期文書理解におけるLLMの数値推論能力の評価
- Authors: Yilun Zhao, Yitao Long, Hongjun Liu, Linyong Nan, Lyuhao Chen, Ryo
Kamoi, Yixin Liu, Xiangru Tang, Rui Zhang, Arman Cohan
- Abstract要約: 本稿では,LLMの数値推論と問題解決能力を評価するベンチマークであるDocMath-Evalを紹介する。
コーディングやファイナンスを専門とする19のLLMを幅広く評価する。
- 参考スコア(独自算出の注目度): 39.80029341097823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent LLMs have demonstrated remarkable performance in solving exam-like
math word problems. However, the degree to which these numerical reasoning
skills are effective in real-world scenarios, particularly in expert domains,
is still largely unexplored. This paper introduces DocMath-Eval, a
comprehensive benchmark specifically designed to evaluate the numerical
reasoning and problem-solving capabilities of LLMs in the context of
understanding and analyzing financial documents containing both text and
tables. We evaluate a wide spectrum of 19 LLMs, including those specialized in
coding and finance. We also incorporate different prompting strategies (i.e.,
Chain-of-Thoughts and Program-of-Thoughts) to comprehensively assess the
capabilities and limitations of existing LLMs in DocMath-Eval. We found that,
although the current best-performing system (i.e., GPT-4), can perform well on
simple problems such as calculating the rate of increase in a financial metric
within a short document context, it significantly lags behind human experts in
more complex problems grounded in longer contexts. We believe DocMath-Eval can
be used as a valuable benchmark to evaluate LLMs' capabilities to solve
challenging numerical reasoning problems in expert domains. We will release the
benchmark and code at https://github.com/yale-nlp/DocMath-Eval.
- Abstract(参考訳): 近年のLLMは、試験のような数学用語の問題を解く際、顕著な性能を示した。
しかし、これらの数値推論スキルが現実のシナリオ、特にエキスパートドメインで有効である程度はまだ明らかにされていない。
本稿では,テキストと表の両方を含む財務文書の理解と分析の文脈において,LLMの数値推論と問題解決能力を評価するための総合的なベンチマークであるDocMath-Evalを紹介する。
コーディングとファイナンスに特化したものを含め、幅広い範囲の19 llmを評価した。
DocMath-Evalにおける既存のLLMの機能と限界を包括的に評価するために、さまざまなプロンプト戦略(すなわちChain-of-ThoughtsとProgram-of-Thoughts)も取り入れています。
現状のベストパフォーマンスシステム(GPT-4)は、短い文書コンテキスト内での財務指標の増加率の計算など、単純な問題でもうまく機能するが、より長い文脈で基礎をおくより複雑な問題では、人間の専門家がかなり遅れていることがわかった。
DocMath-Evalは、専門家ドメインにおける数値推論問題の解決にLLMの能力を評価するための貴重なベンチマークとして利用できると考えている。
ベンチマークとコードをhttps://github.com/yale-nlp/docmath-evalでリリースします。
関連論文リスト
- HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark [29.9945601202065]
我々は,視覚情報とテキスト情報の組み合わせの理解と適用を強調する新しいベンチマークであるMathScapeを提案する。
MathScapeは、MLLMの理論的理解と応用能力を評価し、写真に基づく数学問題シナリオを評価するように設計されている。
我々は11の高度MLLMに対して多次元評価を行い、最も洗練されたモデルでさえベンチマークが困難であることを明らかにした。
論文 参考訳(メタデータ) (2024-08-14T13:23:43Z) - LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs [8.89259409245068]
大規模言語モデル(LLM)は、数学的推論において印象的な能力を示す。
我々はMathematical Topics Tree (MaTT)ベンチマークを提示する。
最上級モデルであるGPT-4は,複数選択シナリオにおいて,わずか54%の精度を達成した。
論文 参考訳(メタデータ) (2024-06-07T18:21:26Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models [44.63505885248145]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。
FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。
数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文 参考訳(メタデータ) (2024-03-12T15:32:39Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。