論文の概要: KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance
Domains
- arxiv url: http://arxiv.org/abs/2311.09797v1
- Date: Thu, 16 Nov 2023 11:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:44:32.119529
- Title: KnowledgeMath: Knowledge-Intensive Math Word Problem Solving in Finance
Domains
- Title(参考訳): KnowledgeMath:財務分野における知識集約型数学語問題解決
- Authors: Yilun Zhao, Hongjun Liu, Yitao Long, Rui Zhang, Chen Zhao, Arman Cohan
- Abstract要約: 本稿では,LLMの複雑な単語問題に対する財務知識の適用能力を評価するための新しいベンチマークであるKnowledgeMathを紹介する。
第一に、KnowledgeMathはテキストと表付きコンテンツを組み合わせた1,259の問題を扱い、効果的な解決のためにファイナンス領域の大学レベルの知識を必要とする。
第二に、Pythonプログラムフォーマットで専門家による詳細なソリューション参照を提供し、LLMアセスメントのための高品質なベンチマークを保証する。
- 参考スコア(独自算出の注目度): 33.60743578269994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce KnowledgeMath, a novel benchmark designed to evaluate LLMs'
capabilities in applying financial knowledge to solve complex math word
problems. Compared to prior works, this study features three core advancements.
First, KnowledgeMath includes 1,259 problems with a hybrid of textual and
tabular content and require college-level knowledge in the finance domain for
effective resolution. Second, we provide expert-annotated, detailed solution
references in Python program format, ensuring a high-quality benchmark for LLM
assessment. Finally, we evaluate a wide spectrum of 14 LLMs with different
prompting strategies like Chain-of-Thoughts and Program-of-Thoughts. The
current best-performing system (i.e., GPT-4 with Program-of-Thoughts) achieves
only 45.4% accuracy, leaving substantial room for improvement. While
knowledge-augmented LLMs can improve the performance (e.g., from 23.9% to 32.0%
for GPT-3.5), it is still significantly lower the estimated human expert
performance of 94%. We believe that KnowledgeMath can facilitate future
research on domain-specific knowledge retrieval and augmentation into the math
word problem-solving process. We will release the benchmark and code at
https://github.com/yale-nlp/KnowledgeMath.
- Abstract(参考訳): 本稿では,LLMの複雑な単語問題に対する財務知識の適用能力を評価するための新しいベンチマークであるKnowledgeMathを紹介する。
先行研究と比較して,本研究は3つの中心的進歩を特徴としている。
まず、knowledgemathはテキストコンテンツと表コンテンツのハイブリッドによる1,259の問題を含み、効果的な解決のために金融分野の大学レベルの知識を必要とする。
第二に、Pythonプログラムフォーマットで専門家による詳細なソリューション参照を提供し、LLMアセスメントのための高品質なベンチマークを保証する。
最後に,14 llmの幅広いスペクトルを評価し,思考の連鎖や思考のプログラムなど,さまざまなプロンプト戦略を行った。
現在の最高性能システム(GPT-4とProgram-of-Thoughts)は45.4%の精度しか達成せず、改善の余地は残っていない。
知識提供型llmは、パフォーマンス(例えば、gpt-3.5の23.9%から32.0%)を向上できるが、それでも推定された人間エキスパートのパフォーマンスは94%とかなり低い。
我々は,知識マスが将来,ドメイン固有の知識検索と算術語問題解決プロセスへの拡張を促進できると考えている。
ベンチマークとコードをhttps://github.com/yale-nlp/knowledgemathでリリースします。
関連論文リスト
- Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange [25.419977967846144]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な機能を示した。
本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。
論文 参考訳(メタデータ) (2024-03-30T12:48:31Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - DocMath-Eval: Evaluating Numerical Reasoning Capabilities of LLMs in
Understanding Long Documents with Tabular Data [39.80029341097823]
本稿では,LLMの数値推論と問題解決能力を評価するベンチマークであるDocMath-Evalを紹介する。
コーディングやファイナンスを専門とする19のLLMを幅広く評価する。
論文 参考訳(メタデータ) (2023-11-16T11:30:53Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。