論文の概要: Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering
- arxiv url: http://arxiv.org/abs/2402.11194v2
- Date: Thu, 29 Feb 2024 09:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:29:56.397398
- Title: Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering
- Title(参考訳): 財務文書質問応答におけるLCMの数学的推論の評価
- Authors: Pragya Srivastava, Manuj Malik, Vivek Gupta, Tanuja Ganu, Dan Roth
- Abstract要約: 本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
- 参考スコア(独自算出の注目度): 53.56653281752486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), excel in natural language understanding, but
their capability for complex mathematical reasoning with an amalgamation of
structured tables and unstructured text is uncertain. This study explores LLMs'
mathematical reasoning on four financial tabular question-answering datasets:
TATQA, FinQA, ConvFinQA, and Multihiertt. Through extensive experiments with
various models and prompting techniques, we assess how LLMs adapt to complex
tables and mathematical tasks. We focus on sensitivity to table complexity and
performance variations with an increasing number of arithmetic reasoning steps.
The results provide insights into LLMs' capabilities and limitations in
handling complex mathematical scenarios for semi-structured tables. Ultimately,
we introduce a novel prompting technique tailored to semi-structured documents,
matching or outperforming other baselines in performance while providing a
nuanced understanding of LLMs abilities for such a task.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語理解に優れているが、構造化テーブルと非構造化テキストの融合による複雑な数学的推論能力は不確実である。
本研究は,tatqa,finqa,convfinqa,multihierttの4つの財務表型質問応答データセットについて,llmsの数学的推論を考察する。
様々なモデルやプロンプト技術による広範な実験を通じて,LLMが複雑なテーブルや数学的タスクにどのように適応するかを評価する。
算術的推論ステップの増加に伴い,テーブルの複雑性や性能の変動に対する感度に注目する。
この結果は、半構造化テーブルの複雑な数学的シナリオを扱う際のLLMの能力と限界に関する洞察を与える。
最終的に、我々は、セミ構造化文書に適した新しいプロンプト技術を導入し、そのタスクに対するLCMの能力の微妙な理解を提供しながら、他のベースラインのマッチングや性能の向上を実現した。
関連論文リスト
- Benchmarking the Text-to-SQL Capability of Large Language Models: A
Comprehensive Evaluation [33.41556606816004]
大規模言語モデル(LLM)は、テキストからタスクへ進むための強力なツールとして登場した。
最適なプロンプトテンプレートと設計フレームワークについてはまだ合意が得られていない。
既存のベンチマークでは、テキスト・ツー・プロセスの様々なサブタスクにまたがるLCMのパフォーマンスが不十分である。
論文 参考訳(メタデータ) (2024-03-05T13:23:48Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - A Comprehensive Evaluation of Constrained Text Generation for Large
Language Models [58.761655924438585]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本稿では,ChatGPT や GPT-4 など複数の LLM について検討し,制約を語彙型,構造型,関係型に分類する。
この研究は、LLMが制約に準拠する範囲など、いくつかの重要な研究課題に対処する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Table Meets LLM: Can Large Language Models Understand Structured Table
Data? A Benchmark and Empirical Study [47.6239689986714]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
我々は,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計することで,これを理解しようとしている。
その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、いくつかの入力選択によってパフォーマンスが変化していることが判明した。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Large Language Models are few(1)-shot Table Reasoners [31.036914270008978]
大規模言語モデル(LLM)は、テキスト推論タスクを解くために、非常に優れた数ショット推論器である。
本稿では,LLMが数発の文脈内学習でテーブルタスクでどれだけうまく機能するかを理解することを目的としている。
論文 参考訳(メタデータ) (2022-10-13T04:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。