論文の概要: DocMath-Eval: Evaluating Numerical Reasoning Capabilities of LLMs in
Understanding Long Documents with Tabular Data
- arxiv url: http://arxiv.org/abs/2311.09805v1
- Date: Thu, 16 Nov 2023 11:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:46:14.559079
- Title: DocMath-Eval: Evaluating Numerical Reasoning Capabilities of LLMs in
Understanding Long Documents with Tabular Data
- Title(参考訳): DocMath-Eval:長期文書理解におけるLLMの数値推論能力の評価
- Authors: Yilun Zhao, Yitao Long, Hongjun Liu, Linyong Nan, Lyuhao Chen, Ryo
Kamoi, Yixin Liu, Xiangru Tang, Rui Zhang, Arman Cohan
- Abstract要約: 本稿では,LLMの数値推論と問題解決能力を評価するベンチマークであるDocMath-Evalを紹介する。
コーディングやファイナンスを専門とする19のLLMを幅広く評価する。
- 参考スコア(独自算出の注目度): 39.80029341097823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent LLMs have demonstrated remarkable performance in solving exam-like
math word problems. However, the degree to which these numerical reasoning
skills are effective in real-world scenarios, particularly in expert domains,
is still largely unexplored. This paper introduces DocMath-Eval, a
comprehensive benchmark specifically designed to evaluate the numerical
reasoning and problem-solving capabilities of LLMs in the context of
understanding and analyzing financial documents containing both text and
tables. We evaluate a wide spectrum of 19 LLMs, including those specialized in
coding and finance. We also incorporate different prompting strategies (i.e.,
Chain-of-Thoughts and Program-of-Thoughts) to comprehensively assess the
capabilities and limitations of existing LLMs in DocMath-Eval. We found that,
although the current best-performing system (i.e., GPT-4), can perform well on
simple problems such as calculating the rate of increase in a financial metric
within a short document context, it significantly lags behind human experts in
more complex problems grounded in longer contexts. We believe DocMath-Eval can
be used as a valuable benchmark to evaluate LLMs' capabilities to solve
challenging numerical reasoning problems in expert domains. We will release the
benchmark and code at https://github.com/yale-nlp/DocMath-Eval.
- Abstract(参考訳): 近年のLLMは、試験のような数学用語の問題を解く際、顕著な性能を示した。
しかし、これらの数値推論スキルが現実のシナリオ、特にエキスパートドメインで有効である程度はまだ明らかにされていない。
本稿では,テキストと表の両方を含む財務文書の理解と分析の文脈において,LLMの数値推論と問題解決能力を評価するための総合的なベンチマークであるDocMath-Evalを紹介する。
コーディングとファイナンスに特化したものを含め、幅広い範囲の19 llmを評価した。
DocMath-Evalにおける既存のLLMの機能と限界を包括的に評価するために、さまざまなプロンプト戦略(すなわちChain-of-ThoughtsとProgram-of-Thoughts)も取り入れています。
現状のベストパフォーマンスシステム(GPT-4)は、短い文書コンテキスト内での財務指標の増加率の計算など、単純な問題でもうまく機能するが、より長い文脈で基礎をおくより複雑な問題では、人間の専門家がかなり遅れていることがわかった。
DocMath-Evalは、専門家ドメインにおける数値推論問題の解決にLLMの能力を評価するための貴重なベンチマークとして利用できると考えている。
ベンチマークとコードをhttps://github.com/yale-nlp/docmath-evalでリリースします。
関連論文リスト
- MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese
Large Language Models [47.560637703675816]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。
FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。
数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文 参考訳(メタデータ) (2024-03-12T15:32:39Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance
Domains [33.60743578269994]
本稿では,LLMの複雑な単語問題に対する財務知識の適用能力を評価するための新しいベンチマークであるKnowledgeMathを紹介する。
第一に、KnowledgeMathはテキストと表付きコンテンツを組み合わせた1,259の問題を扱い、効果的な解決のためにファイナンス領域の大学レベルの知識を必要とする。
第二に、Pythonプログラムフォーマットで専門家による詳細なソリューション参照を提供し、LLMアセスメントのための高品質なベンチマークを保証する。
論文 参考訳(メタデータ) (2023-11-16T11:22:08Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。