Fugu-MT 論文翻訳(概要): Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering

論文の概要: Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering

arxiv url: http://arxiv.org/abs/2402.11194v2
Date: Thu, 29 Feb 2024 09:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 17:29:56.397398
Title: Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering
Title（参考訳）: 財務文書質問応答におけるLCMの数学的推論の評価
Authors: Pragya Srivastava, Manuj Malik, Vivek Gupta, Tanuja Ganu, Dan Roth
Abstract要約: 本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。半構造化文書に適した新しいプロンプト技術を導入する。
参考スコア（独自算出の注目度）: 53.56653281752486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs), excel in natural language understanding, but their capability for complex mathematical reasoning with an amalgamation of structured tables and unstructured text is uncertain. This study explores LLMs' mathematical reasoning on four financial tabular question-answering datasets: TATQA, FinQA, ConvFinQA, and Multihiertt. Through extensive experiments with various models and prompting techniques, we assess how LLMs adapt to complex tables and mathematical tasks. We focus on sensitivity to table complexity and performance variations with an increasing number of arithmetic reasoning steps. The results provide insights into LLMs' capabilities and limitations in handling complex mathematical scenarios for semi-structured tables. Ultimately, we introduce a novel prompting technique tailored to semi-structured documents, matching or outperforming other baselines in performance while providing a nuanced understanding of LLMs abilities for such a task.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語理解に優れているが、構造化テーブルと非構造化テキストの融合による複雑な数学的推論能力は不確実である。本研究は,tatqa,finqa,convfinqa,multihierttの4つの財務表型質問応答データセットについて,llmsの数学的推論を考察する。様々なモデルやプロンプト技術による広範な実験を通じて,LLMが複雑なテーブルや数学的タスクにどのように適応するかを評価する。算術的推論ステップの増加に伴い,テーブルの複雑性や性能の変動に対する感度に注目する。この結果は、半構造化テーブルの複雑な数学的シナリオを扱う際のLLMの能力と限界に関する洞察を与える。最終的に、我々は、セミ構造化文書に適した新しいプロンプト技術を導入し、そのタスクに対するLCMの能力の微妙な理解を提供しながら、他のベースラインのマッチングや性能の向上を実現した。

関連論文リスト

Large Language Models: A Mathematical Formulation [9.837462698662947]
大規模言語モデル(LLM)は、質問に答えるテキストを含むシーケンスを処理し、予測する。トークン列へのテキストシーケンスの符号化を記述することで,LLMの数学的枠組みを提供する。これらのモデルがデータからどのように学習されるかを説明し、さまざまなタスクにどのようにデプロイされるかを示す。
論文参考訳（メタデータ） (2026-01-21T21:22:49Z)
ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints [42.713620384054146]
本稿では,多段階空間推論能力の評価を目的とした新しいデータセットとベンチマークであるORIGAMISPACEを紹介する。パターン予測,多段階空間推論,空間関係予測,終端CPコード生成という4つの評価課題を提案する。
論文参考訳（メタデータ） (2025-11-23T13:42:22Z)
Large Language Models for Spreadsheets: Benchmarking Progress and Evaluating Performance with FLARE [0.0]
大規模言語モデル(LLM)は、様々な領域にまたがるいくつかの重要な機能を示している。本研究では,スプレッドシート機能の実行において,LLMをリードする性能を評価するためのベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-19T03:47:38Z)
Decompositional Reasoning for Graph Retrieval with Large Language Models [1.034893617526558]
大規模言語モデル(LLM)は多くのNLPタスクに優れるが、マルチホップ推論と現実の一貫性に苦しむ。本稿では,テキスト知識グラフをクエリ分解によるLLM推論プロセスに統合する新しい検索手法を提案する。本手法は,複雑な質問をサブクエストに分解し,関連するテキストのサブグラフを検索し,質問固有の知識グラフを作成して回答生成を誘導する。
論文参考訳（メタデータ） (2025-06-16T11:44:28Z)
A Survey on Large Language Models with some Insights on their Capabilities and Limitations [0.3222802562733786]
大規模言語モデル(LLM)は、様々な言語関連タスクで顕著なパフォーマンスを示す。 LLMは、そのコア機能を超えて、創発的な能力を示す。本稿では,これらの機能を実現する基盤となるコンポーネント,スケーリング機構,アーキテクチャ戦略について検討する。
論文参考訳（メタデータ） (2025-01-03T21:04:49Z)
MTMT: Consolidating Multiple Thinking Modes to Form a Thought Tree for Strengthening LLM [15.687878949848182]
大規模言語モデル(LLM)は、複雑な論理的推論と多段階の問題解決を必要とするタスクの制限を示している。 MTMT(Multi-thinking Modes Tree)は,LLMと対話して思考木を構築する手法である。 GPT-4o miniをベースモデルとして,パラメータ設定の違いによるMTMTの性能評価を行った。
論文参考訳（メタデータ） (2024-12-05T09:05:30Z)
Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [3.181878085746691]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。本稿では,emphCommutativity やemphIdentity などの代数的構造を捉えることによって,LLM が算術を学習することを提案する。この結果から,代数的構造を活用することでLLMの算術的能力が向上し,算術的性能向上への洞察が得られた。
論文参考訳（メタデータ） (2024-11-25T10:23:11Z)
Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文参考訳（メタデータ） (2024-07-04T14:50:45Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。 TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文参考訳（メタデータ） (2024-06-05T20:32:56Z)
MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文参考訳（メタデータ） (2024-05-29T18:45:55Z)
Investigating Symbolic Capabilities of Large Language Models [16.88906206735967]
本研究の目的は,一連の記号的タスクにおいて,LLM(Large Language Models)を厳格に評価することにより,ギャップを埋めることである。我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。
論文参考訳（メタデータ） (2024-05-21T21:24:34Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。