論文の概要: BizBench: A Quantitative Reasoning Benchmark for Business and Finance
- arxiv url: http://arxiv.org/abs/2311.06602v1
- Date: Sat, 11 Nov 2023 16:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:41:50.101010
- Title: BizBench: A Quantitative Reasoning Benchmark for Business and Finance
- Title(参考訳): BizBench:ビジネスとファイナンスのための定量的推論ベンチマーク
- Authors: Rik Koncel-Kedziorski, Michael Krumdick, Viet Lai, Varshini Reddy,
Charles Lovering, Chris Tanner
- Abstract要約: BizBenchは、現実的な財務問題を推論するモデルの能力を評価するための新しいベンチマークである。
BizBenchは8つの量的推論タスクから構成される。
- 参考スコア(独自算出の注目度): 7.4673182865000225
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) impact a growing number of complex domains,
it is becoming increasingly important to have fair, accurate, and rigorous
evaluation benchmarks. Evaluating the reasoning skills required for business
and financial NLP stands out as a particularly difficult challenge. We
introduce BizBench, a new benchmark for evaluating models' ability to reason
about realistic financial problems. BizBench comprises 8 quantitative reasoning
tasks. Notably, BizBench targets the complex task of question-answering (QA)
for structured and unstructured financial data via program synthesis (i.e.,
code generation). We introduce three diverse financially-themed code-generation
tasks from newly collected and augmented QA data. Additionally, we isolate
distinct financial reasoning capabilities required to solve these QA tasks:
reading comprehension of financial text and tables, which is required to
extract correct intermediate values; and understanding domain knowledge (e.g.,
financial formulas) needed to calculate complex solutions. Collectively, these
tasks evaluate a model's financial background knowledge, ability to extract
numeric entities from financial documents, and capacity to solve problems with
code. We conduct an in-depth evaluation of open-source and commercial LLMs,
illustrating that BizBench is a challenging benchmark for quantitative
reasoning in the finance and business domain.
- Abstract(参考訳): 大規模言語モデル(LLM)が多くの複雑なドメインに影響を与えるにつれ、公正で正確で厳密な評価ベンチマークを持つことがますます重要になっている。
ビジネスおよび金融NLPに必要な推論スキルを評価することは、特に難しい課題である。
実存的な金融問題に対するモデルの判断能力を評価するための新しいベンチマークであるbizbenchを紹介する。
BizBenchは8つの量的推論タスクからなる。
特に、BizBenchは、プログラム合成(コード生成)による構造化および非構造化の財務データに対する質問応答(QA)の複雑なタスクをターゲットにしている。
本稿では,新たに収集および拡張されたQAデータから,金融をテーマとした3つのコード生成タスクを紹介する。
さらに,これらの課題を解決するために必要な財務的推論能力を分離する: 正しい中間値を抽出するために必要な財務的テキストと表の理解を読むこと,複雑な解を計算するために必要なドメイン知識(例えば財務的公式)を理解すること。
これらのタスクは、モデルの財務的背景知識、財務文書から数値的実体を抽出する能力、およびコードによる問題を解決する能力を評価する。
我々は、BizBenchが金融及びビジネス領域における量的推論の難しいベンチマークであることを示すオープンソースおよび商用LCMの詳細な評価を行う。
関連論文リスト
- AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - FinLlama: Financial Sentiment Classification for Algorithmic Trading Applications [2.2661367844871854]
大規模言語モデル(LLM)はこの文脈で使用することができるが、財務に特化せず、重要な計算資源を必要とする傾向がある。
我々はLlama 2 7Bの基礎モデルに基づく新しいアプローチを導入し,その生成特性と包括的言語操作の利点を享受する。
これは、Llama2 7Bモデルを教師付き財務感情分析データの一部に微調整することで達成される。
論文 参考訳(メタデータ) (2024-03-18T22:11:00Z) - The FinBen: An Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、金融分野におけるLLMの能力を徹底的に評価するために設計された、初めての包括的なオープンソース評価ベンチマークである。
FinBenは、23の財務タスクにわたる35のデータセットを含み、Cattell-Horn-Carroll理論にインスパイアされた3つの難易度に分類されている。
GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLCMを評価した結果, 金融分野におけるその強みと限界についての知見が得られた。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Evaluating LLMs' Mathematical Reasoning in Financial Document Question
Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。
数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。
半構造化文書に適した新しいプロンプト技術を導入する。
論文 参考訳(メタデータ) (2024-02-17T05:10:18Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - FinGPT: Instruction Tuning Benchmark for Open-Source Large Language
Models in Financial Datasets [9.714447724811842]
本稿では,オープンソースの大規模言語モデルに対して,インストラクションチューニングパラダイムに固有のアプローチを導入する。
私たちは、オープンソースのモデルの相互運用性に乗じて、シームレスで透過的な統合を確保します。
本稿では,エンドツーエンドのトレーニングとテストのためのベンチマーク手法を提案し,費用対効果を生かした。
論文 参考訳(メタデータ) (2023-10-07T12:52:58Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。