Fugu-MT 論文翻訳(概要): FinanceMath: Knowledge-Intensive Math Reasoning in Finance Domains

論文の概要: FinanceMath: Knowledge-Intensive Math Reasoning in Finance Domains

arxiv url: http://arxiv.org/abs/2311.09797v2
Date: Thu, 8 Aug 2024 15:45:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 20:59:13.783552
Title: FinanceMath: Knowledge-Intensive Math Reasoning in Finance Domains
Title（参考訳）: ファイナンスマス:金融ドメインにおける知識集約型数学推論
Authors: Yilun Zhao, Hongjun Liu, Yitao Long, Rui Zhang, Chen Zhao, Arman Cohan,
Abstract要約: 数学推論問題の解法におけるLLMの能力を評価するために設計された新しいベンチマークである FinanceMath を紹介する。 FinanceMathには1200の問題があり、テキストと表のコンテンツが混在している。金融分野の知識銀行を構築し,様々な知識統合戦略について検討する。
参考スコア（独自算出の注目度）: 31.71662323881496
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce FinanceMath, a novel benchmark designed to evaluate LLMs' capabilities in solving knowledge-intensive math reasoning problems. Compared to prior works, this study features three core advancements. First, FinanceMath includes 1,200 problems with a hybrid of textual and tabular content. These problems require college-level knowledge in the finance domain for effective resolution. Second, we provide expert-annotated, detailed solution references in Python program format, ensuring a high-quality benchmark for LLM assessment. We also construct a finance-domain knowledge bank and investigate various knowledge integration strategies. Finally, we evaluate a wide spectrum of 44 LLMs with both Chain-of-Thought and Program-of-Thought prompting methods. Our experimental results reveal that the current best-performing system (i.e., GPT-4o) achieves only 60.9% accuracy using CoT prompting, leaving substantial room for improvement. Moreover, while augmenting LLMs with external knowledge can improve model performance (e.g., from 47.5% to 54.5% for Gemini-1.5-Pro), their accuracy remains significantly lower than the estimated human expert performance of 92%. We believe that FinanceMath can advance future research in the area of domain-specific knowledge retrieval and integration, particularly within the context of solving reasoning-intensive tasks.
Abstract（参考訳）: 我々は、知識集約型数学推論問題の解法におけるLLMの能力を評価するために設計された新しいベンチマークであるFundyMathを紹介する。先行研究と比較して,本研究は3つの中核的な進歩を特徴としている。まず、FinancialMathには1200の問題があり、テキストと表のコンテンツが混在している。これらの問題は、効果的な解決のためにファイナンス領域におけるカレッジレベルの知識を必要とする。第二に、Pythonプログラムフォーマットで専門家による詳細なソリューション参照を提供し、LLMアセスメントのための高品質なベンチマークを保証する。また、金融分野の知識銀行を構築し、様々な知識統合戦略について検討する。最後に,Chain-of-Thought法とProgram-of-Thought法による44 LLMの広いスペクトルの評価を行った。実験結果から,現在のベストパフォーマンスシステム(GPT-4o)は,CoTプロンプトによる60.9%の精度しか達成できず,改善の余地が残っていることがわかった。さらに、外部知識でLLMを増強することで、モデル性能(例えば、Gemini-1.5-Proの47.5%から54.5%)を向上させることができるが、その精度は、推定された人間の専門家の92%よりも大幅に低いままである。ファイナンスマスはドメイン固有の知識検索と統合の分野、特に推論集約的なタスクの解決の文脈において、将来の研究を進めることができると我々は信じている。

関連論文リスト

ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。 LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文参考訳（メタデータ） (2025-07-03T19:19:44Z)
FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning [18.68776736676411]
FinEval-KRは、大規模言語モデルの知識と推論能力の定量化のための新しい評価フレームワークである。認知科学に触発されて,様々な認知レベルのタスクを推論する能力を分析する認知スコアを提案する。実験の結果,LLM推論能力と高次認知能力が推論精度に影響を与える中核的な要因であることが判明した。
論文参考訳（メタデータ） (2025-06-18T06:21:50Z)
Bridging Language Models and Financial Analysis [49.361943182322385]
大規模言語モデル(LLM)の急速な進歩は、自然言語処理における変換可能性の解放をもたらした。財務データは、しばしばテキストコンテンツ、数値表、および視覚チャートの複雑な関係に埋め込まれる。 LLM研究における急速なイノベーションのペースにもかかわらず、金融業界における彼らの実践的採用には大きなギャップが残っている。
論文参考訳（メタデータ） (2025-03-14T01:35:20Z)
U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs [2.2330469342127577]
教材から得られた大学レベルの未発表問題1,100件の新規ベンチマークであるU-MATHを紹介する。 6つの中核領域でバランスが取れており、20%のマルチモーダル問題がある。 U-MATH問題のオープンな性質を考えると、生成した解の正しさを判断するために LLM を用いる。その結果,LLMはテキストベースのタスクでは最大63%の精度しか得られず,視覚的問題では45%以下であった。
論文参考訳（メタデータ） (2024-12-04T10:44:50Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
DocMath-Eval: Evaluating Math Reasoning Capabilities of LLMs in Understanding Long and Specialized Documents [38.51865513988743]
本稿では,LLMの数値推論能力を評価するベンチマークであるDocMath-Evalを紹介する。我々は,48 LLMをChain-of-Thought法とProgram-of-Thought法で評価する。我々は、最も優れたシステム(GPT-4o)でさえ、長い文脈に根ざした複雑な数値推論問題の解法において、人間の専門家よりかなり遅れていることを発見した。
論文参考訳（メタデータ） (2023-11-16T11:30:53Z)
FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。 FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文参考訳（メタデータ） (2023-08-19T10:38:00Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
Systematic Review on Reinforcement Learning in the Field of Fintech [0.36832029288386137]
本研究の目的は,強化学習と複雑性の相関関係に関する探索的研究を行うことである。フィールドにおけるRLベースの戦略の使用は、他の最先端アルゴリズムよりもかなり優れた性能を示す。金融を扱う組織は、スマートオーダーのチャネルリング、マーケットメイキング、ヘッジとオプション、価格設定、ポートフォリオ最適化、最適な実行から大きな恩恵を受けることができます。
論文参考訳（メタデータ） (2023-04-29T07:48:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。