論文の概要: KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance
Domains
- arxiv url: http://arxiv.org/abs/2311.09797v1
- Date: Thu, 16 Nov 2023 11:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:44:32.119529
- Title: KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance
Domains
- Title(参考訳): KnowledgeMath:財務分野における知識集約型数学語問題解決
- Authors: Yilun Zhao, Hongjun Liu, Yitao Long, Rui Zhang, Chen Zhao, Arman Cohan
- Abstract要約: 本稿では,LLMの複雑な単語問題に対する財務知識の適用能力を評価するための新しいベンチマークであるKnowledgeMathを紹介する。
第一に、KnowledgeMathはテキストと表付きコンテンツを組み合わせた1,259の問題を扱い、効果的な解決のためにファイナンス領域の大学レベルの知識を必要とする。
第二に、Pythonプログラムフォーマットで専門家による詳細なソリューション参照を提供し、LLMアセスメントのための高品質なベンチマークを保証する。
- 参考スコア(独自算出の注目度): 33.60743578269994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce KnowledgeMath, a novel benchmark designed to evaluate LLMs'
capabilities in applying financial knowledge to solve complex math word
problems. Compared to prior works, this study features three core advancements.
First, KnowledgeMath includes 1,259 problems with a hybrid of textual and
tabular content and require college-level knowledge in the finance domain for
effective resolution. Second, we provide expert-annotated, detailed solution
references in Python program format, ensuring a high-quality benchmark for LLM
assessment. Finally, we evaluate a wide spectrum of 14 LLMs with different
prompting strategies like Chain-of-Thoughts and Program-of-Thoughts. The
current best-performing system (i.e., GPT-4 with Program-of-Thoughts) achieves
only 45.4% accuracy, leaving substantial room for improvement. While
knowledge-augmented LLMs can improve the performance (e.g., from 23.9% to 32.0%
for GPT-3.5), it is still significantly lower the estimated human expert
performance of 94%. We believe that KnowledgeMath can facilitate future
research on domain-specific knowledge retrieval and augmentation into the math
word problem-solving process. We will release the benchmark and code at
https://github.com/yale-nlp/KnowledgeMath.
- Abstract(参考訳): 本稿では,LLMの複雑な単語問題に対する財務知識の適用能力を評価するための新しいベンチマークであるKnowledgeMathを紹介する。
先行研究と比較して,本研究は3つの中心的進歩を特徴としている。
まず、knowledgemathはテキストコンテンツと表コンテンツのハイブリッドによる1,259の問題を含み、効果的な解決のために金融分野の大学レベルの知識を必要とする。
第二に、Pythonプログラムフォーマットで専門家による詳細なソリューション参照を提供し、LLMアセスメントのための高品質なベンチマークを保証する。
最後に,14 llmの幅広いスペクトルを評価し,思考の連鎖や思考のプログラムなど,さまざまなプロンプト戦略を行った。
現在の最高性能システム(GPT-4とProgram-of-Thoughts)は45.4%の精度しか達成せず、改善の余地は残っていない。
知識提供型llmは、パフォーマンス(例えば、gpt-3.5の23.9%から32.0%)を向上できるが、それでも推定された人間エキスパートのパフォーマンスは94%とかなり低い。
我々は,知識マスが将来,ドメイン固有の知識検索と算術語問題解決プロセスへの拡張を促進できると考えている。
ベンチマークとコードをhttps://github.com/yale-nlp/knowledgemathでリリースします。
関連論文リスト
- ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - DocMath-Eval: Evaluating Math Reasoning Capabilities of LLMs in Understanding Long and Specialized Documents [38.51865513988743]
本稿では,LLMの数値推論能力を評価するベンチマークであるDocMath-Evalを紹介する。
我々は,48 LLMをChain-of-Thought法とProgram-of-Thought法で評価する。
我々は、最も優れたシステム(GPT-4o)でさえ、長い文脈に根ざした複雑な数値推論問題の解法において、人間の専門家よりかなり遅れていることを発見した。
論文 参考訳(メタデータ) (2023-11-16T11:30:53Z) - FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。
FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。
その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文 参考訳(メタデータ) (2023-08-19T10:38:00Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - Systematic Review on Reinforcement Learning in the Field of Fintech [0.36832029288386137]
本研究の目的は,強化学習と複雑性の相関関係に関する探索的研究を行うことである。
フィールドにおけるRLベースの戦略の使用は、他の最先端アルゴリズムよりもかなり優れた性能を示す。
金融を扱う組織は、スマートオーダーのチャネルリング、マーケットメイキング、ヘッジとオプション、価格設定、ポートフォリオ最適化、最適な実行から大きな恩恵を受けることができます。
論文 参考訳(メタデータ) (2023-04-29T07:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。