論文の概要: FinanceBench: A New Benchmark for Financial Question Answering
- arxiv url: http://arxiv.org/abs/2311.11944v1
- Date: Mon, 20 Nov 2023 17:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:36:09.993301
- Title: FinanceBench: A New Benchmark for Financial Question Answering
- Title(参考訳): FinanceBench: 財務質問に対する新たなベンチマーク
- Authors: Pranab Islam, Anand Kannappan, Douwe Kiela, Rebecca Qian, Nino
Scherrer, Bertie Vidgen
- Abstract要約: FinanceBenchは、オープンブックの財務質問応答(QA)上でのLLMのパフォーマンスを評価するための、第一級テストスイートである。
公開企業に関する10,231の質問と、それに対応する回答と証拠の文字列で構成されている。
ファイナンスベンチから150例のサンプルを用いて16のアートモデル構成を検証し,手動で回答を確認した。
- 参考スコア(独自算出の注目度): 28.865821741574237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: FinanceBench is a first-of-its-kind test suite for evaluating the performance
of LLMs on open book financial question answering (QA). It comprises 10,231
questions about publicly traded companies, with corresponding answers and
evidence strings. The questions in FinanceBench are ecologically valid and
cover a diverse set of scenarios. They are intended to be clear-cut and
straightforward to answer to serve as a minimum performance standard. We test
16 state of the art model configurations (including GPT-4-Turbo, Llama2 and
Claude2, with vector stores and long context prompts) on a sample of 150 cases
from FinanceBench, and manually review their answers (n=2,400). The cases are
available open-source. We show that existing LLMs have clear limitations for
financial QA. Notably, GPT-4-Turbo used with a retrieval system incorrectly
answered or refused to answer 81% of questions. While augmentation techniques
such as using longer context window to feed in relevant evidence improve
performance, they are unrealistic for enterprise settings due to increased
latency and cannot support larger financial documents. We find that all models
examined exhibit weaknesses, such as hallucinations, that limit their
suitability for use by enterprises.
- Abstract(参考訳): FinanceBench(ファイナンスベンチ)は、オープンブックの財務質問応答(QA)でLLMのパフォーマンスを評価するためのテストスイートである。
公開企業に関する10,231の質問からなり、対応する回答と証拠がある。
FinanceBenchの質問は生態学的に有効であり、さまざまなシナリオをカバーする。
それらは、最小パフォーマンス標準として機能するように、明確で簡単に答えられるように意図されている。
本研究は,GPT-4-Turbo,Llama2,Claude2を含む16種類のアートモデル構成をファイナンスベンチから150例のサンプルを用いて検証し,手動で回答を検証した(n=2,400)。
ケースはオープンソースで入手できる。
既存のllmは財務qaに明確な制限があることを示します。
特に、GPT-4-Turboは検索システムで誤って81%の回答を拒んだ。
より長いコンテキストウインドウを使用して関連するエビデンスをフィードするといった拡張技術はパフォーマンスを向上させるが、レイテンシの増加によるエンタープライズ環境では非現実的であり、より大きな財務文書をサポートできない。
調査したすべてのモデルは、幻覚などの弱点を示しており、企業による使用の適性を制限している。
関連論文リスト
- The FinBen: An Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、金融分野におけるLLMの能力を徹底的に評価するために設計された、初めての包括的なオープンソース評価ベンチマークである。
FinBenは、23の財務タスクにわたる35のデータセットを含み、Cattell-Horn-Carroll理論にインスパイアされた3つの難易度に分類されている。
GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLCMを評価した結果, 金融分野におけるその強みと限界についての知見が得られた。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - BizBench: A Quantitative Reasoning Benchmark for Business and Finance [7.4673182865000225]
BizBenchは、現実的な金融問題を推論するモデルの能力を評価するためのベンチマークである。
新たに収集および拡張されたQAデータから、財務的にテーマ化された3つのコード生成タスクを含む。
これらのタスクは、モデルの財務的背景の知識、財務文書を解析する能力、およびコードの問題を解決する能力を評価する。
論文 参考訳(メタデータ) (2023-11-11T16:16:11Z) - DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - InvestLM: A Large Language Model for Investment using Financial Domain
Instruction Tuning [19.22852919096857]
我々はLLaMA-65B(Touvron et al., 2023)に基づく新たな金融領域大言語モデルInvestLMを提案する。
より少ないアライメントにインスパイアされた我々は、小さなが多様な命令データセットを手作業でキュレートし、幅広い金融関連トピックをカバーした。
InvestLMは、財務文書の理解における強力な能力を示し、投資関連の質問に対する有益な回答を提供する。
論文 参考訳(メタデータ) (2023-09-15T02:59:31Z) - FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。
FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。
その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文 参考訳(メタデータ) (2023-08-19T10:38:00Z) - GPT-3 Models are Few-Shot Financial Reasoners [1.0742675209112622]
金融分野において、事前訓練された言語モデルがどの程度理にかなっているかは分かっていない。
我々は、GPT-3でいくつかの実験を行い、別個の検索モデルと論理エンジンが重要なコンポーネントであり続けていることを発見した。
これにより, GPT-3 に対する改良されたプロンプトエンジニアリング手法は, 微調整を伴わずにSOTA 付近の精度を達成できる。
論文 参考訳(メタデータ) (2023-07-25T16:21:07Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text
Analytics? A Study on Several Typical Tasks [36.84636748560657]
ChatGPTやGPT-4のような大規模言語モデルは、ジェネラリストモデルの例外的な能力を示している。
このようなモデルは金融分野でどの程度有効か?
論文 参考訳(メタデータ) (2023-05-10T03:13:54Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。