論文の概要: Assessing LLMs' Mathematical Reasoning in Financial Document Question
Answering
- arxiv url: http://arxiv.org/abs/2402.11194v1
- Date: Sat, 17 Feb 2024 05:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:50:22.758047
- Title: Assessing LLMs' Mathematical Reasoning in Financial Document Question
Answering
- Title(参考訳): 財務文書質問応答におけるLLMの数学的推論の評価
- Authors: Pragya Srivastava, Manuj Malik, Tanuja Ganu
- Abstract要約: 本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
- 参考スコア(独自算出の注目度): 3.6544152575953555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), excel in natural language understanding, but
their capability for complex mathematical reasoning with an amalgamation of
structured tables and unstructured text is uncertain. This study explores LLMs'
mathematical reasoning on four financial tabular question-answering datasets:
TATQA, FinQA, ConvFinQA, and Multihiertt. Through extensive experiments with
various models and prompting techniques, we assess how LLMs adapt to complex
tables and mathematical tasks. We focus on sensitivity to table complexity and
performance variations with an increasing number of arithmetic reasoning steps.
The results provide insights into LLMs' capabilities and limitations in
handling complex mathematical scenarios for semi-structured tables. Ultimately,
we introduce a novel prompting technique tailored to semi-structured documents,
matching or outperforming other baselines in performance while providing a
nuanced understanding of LLMs abilities for such a task.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語理解に優れているが、構造化テーブルと非構造化テキストの融合による複雑な数学的推論能力は不確実である。
本研究は,tatqa,finqa,convfinqa,multihierttの4つの財務表型質問応答データセットについて,llmsの数学的推論を考察する。
様々なモデルやプロンプト技術による広範な実験を通じて,LLMが複雑なテーブルや数学的タスクにどのように適応するかを評価する。
算術的推論ステップの増加に伴い,テーブルの複雑性や性能の変動に対する感度に注目する。
この結果は、半構造化テーブルの複雑な数学的シナリオを扱う際のLLMの能力と限界に関する洞察を与える。
最終的に、我々は、セミ構造化文書に適した新しいプロンプト技術を導入し、そのタスクに対するLCMの能力の微妙な理解を提供しながら、他のベースラインのマッチングや性能の向上を実現した。
関連論文リスト
- Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [3.181878085746691]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。
本稿では,emphCommutativity やemphIdentity などの代数的構造を捉えることによって,LLM が算術を学習することを提案する。
この結果から,代数的構造を活用することでLLMの算術的能力が向上し,算術的性能向上への洞察が得られた。
論文 参考訳(メタデータ) (2024-11-25T10:23:11Z) - Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - Investigating Symbolic Capabilities of Large Language Models [16.88906206735967]
本研究の目的は,一連の記号的タスクにおいて,LLM(Large Language Models)を厳格に評価することにより,ギャップを埋めることである。
我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。
その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-05-21T21:24:34Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。