Fugu-MT 論文翻訳(概要): KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance Domains

論文の概要: KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance Domains

arxiv url: http://arxiv.org/abs/2311.09797v1
Date: Thu, 16 Nov 2023 11:22:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 14:44:32.119529
Title: KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance Domains
Title（参考訳）: KnowledgeMath:財務分野における知識集約型数学語問題解決
Authors: Yilun Zhao, Hongjun Liu, Yitao Long, Rui Zhang, Chen Zhao, Arman Cohan
Abstract要約: 本稿では,LLMの複雑な単語問題に対する財務知識の適用能力を評価するための新しいベンチマークであるKnowledgeMathを紹介する。第一に、KnowledgeMathはテキストと表付きコンテンツを組み合わせた1,259の問題を扱い、効果的な解決のためにファイナンス領域の大学レベルの知識を必要とする。第二に、Pythonプログラムフォーマットで専門家による詳細なソリューション参照を提供し、LLMアセスメントのための高品質なベンチマークを保証する。
参考スコア（独自算出の注目度）: 33.60743578269994
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce KnowledgeMath, a novel benchmark designed to evaluate LLMs' capabilities in applying financial knowledge to solve complex math word problems. Compared to prior works, this study features three core advancements. First, KnowledgeMath includes 1,259 problems with a hybrid of textual and tabular content and require college-level knowledge in the finance domain for effective resolution. Second, we provide expert-annotated, detailed solution references in Python program format, ensuring a high-quality benchmark for LLM assessment. Finally, we evaluate a wide spectrum of 14 LLMs with different prompting strategies like Chain-of-Thoughts and Program-of-Thoughts. The current best-performing system (i.e., GPT-4 with Program-of-Thoughts) achieves only 45.4% accuracy, leaving substantial room for improvement. While knowledge-augmented LLMs can improve the performance (e.g., from 23.9% to 32.0% for GPT-3.5), it is still significantly lower the estimated human expert performance of 94%. We believe that KnowledgeMath can facilitate future research on domain-specific knowledge retrieval and augmentation into the math word problem-solving process. We will release the benchmark and code at https://github.com/yale-nlp/KnowledgeMath.
Abstract（参考訳）: 本稿では,LLMの複雑な単語問題に対する財務知識の適用能力を評価するための新しいベンチマークであるKnowledgeMathを紹介する。先行研究と比較して,本研究は3つの中心的進歩を特徴としている。まず、knowledgemathはテキストコンテンツと表コンテンツのハイブリッドによる1,259の問題を含み、効果的な解決のために金融分野の大学レベルの知識を必要とする。第二に、Pythonプログラムフォーマットで専門家による詳細なソリューション参照を提供し、LLMアセスメントのための高品質なベンチマークを保証する。最後に,14 llmの幅広いスペクトルを評価し,思考の連鎖や思考のプログラムなど,さまざまなプロンプト戦略を行った。現在の最高性能システム(GPT-4とProgram-of-Thoughts)は45.4%の精度しか達成せず、改善の余地は残っていない。知識提供型llmは、パフォーマンス(例えば、gpt-3.5の23.9%から32.0%)を向上できるが、それでも推定された人間エキスパートのパフォーマンスは94%とかなり低い。我々は,知識マスが将来,ドメイン固有の知識検索と算術語問題解決プロセスへの拡張を促進できると考えている。ベンチマークとコードをhttps://github.com/yale-nlp/knowledgemathでリリースします。

関連論文リスト

ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。 LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文参考訳（メタデータ） (2025-07-03T19:19:44Z)
FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning [18.68776736676411]
FinEval-KRは、大規模言語モデルの知識と推論能力の定量化のための新しい評価フレームワークである。認知科学に触発されて,様々な認知レベルのタスクを推論する能力を分析する認知スコアを提案する。実験の結果,LLM推論能力と高次認知能力が推論精度に影響を与える中核的な要因であることが判明した。
論文参考訳（メタデータ） (2025-06-18T06:21:50Z)
Bridging Language Models and Financial Analysis [49.361943182322385]
大規模言語モデル(LLM)の急速な進歩は、自然言語処理における変換可能性の解放をもたらした。財務データは、しばしばテキストコンテンツ、数値表、および視覚チャートの複雑な関係に埋め込まれる。 LLM研究における急速なイノベーションのペースにもかかわらず、金融業界における彼らの実践的採用には大きなギャップが残っている。
論文参考訳（メタデータ） (2025-03-14T01:35:20Z)
U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs [2.2330469342127577]
教材から得られた大学レベルの未発表問題1,100件の新規ベンチマークであるU-MATHを紹介する。 6つの中核領域でバランスが取れており、20%のマルチモーダル問題がある。 U-MATH問題のオープンな性質を考えると、生成した解の正しさを判断するために LLM を用いる。その結果,LLMはテキストベースのタスクでは最大63%の精度しか得られず,視覚的問題では45%以下であった。
論文参考訳（メタデータ） (2024-12-04T10:44:50Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
DocMath-Eval: Evaluating Math Reasoning Capabilities of LLMs in Understanding Long and Specialized Documents [38.51865513988743]
本稿では,LLMの数値推論能力を評価するベンチマークであるDocMath-Evalを紹介する。我々は,48 LLMをChain-of-Thought法とProgram-of-Thought法で評価する。我々は、最も優れたシステム(GPT-4o)でさえ、長い文脈に根ざした複雑な数値推論問題の解法において、人間の専門家よりかなり遅れていることを発見した。
論文参考訳（メタデータ） (2023-11-16T11:30:53Z)
FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。 FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文参考訳（メタデータ） (2023-08-19T10:38:00Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
Systematic Review on Reinforcement Learning in the Field of Fintech [0.36832029288386137]
本研究の目的は,強化学習と複雑性の相関関係に関する探索的研究を行うことである。フィールドにおけるRLベースの戦略の使用は、他の最先端アルゴリズムよりもかなり優れた性能を示す。金融を扱う組織は、スマートオーダーのチャネルリング、マーケットメイキング、ヘッジとオプション、価格設定、ポートフォリオ最適化、最適な実行から大きな恩恵を受けることができます。
論文参考訳（メタデータ） (2023-04-29T07:48:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。