論文の概要: FinanceBench: A New Benchmark for Financial Question Answering
- arxiv url: http://arxiv.org/abs/2311.11944v1
- Date: Mon, 20 Nov 2023 17:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:36:09.993301
- Title: FinanceBench: A New Benchmark for Financial Question Answering
- Title(参考訳): FinanceBench: 財務質問に対する新たなベンチマーク
- Authors: Pranab Islam, Anand Kannappan, Douwe Kiela, Rebecca Qian, Nino
Scherrer, Bertie Vidgen
- Abstract要約: FinanceBenchは、オープンブックの財務質問応答(QA)上でのLLMのパフォーマンスを評価するための、第一級テストスイートである。
公開企業に関する10,231の質問と、それに対応する回答と証拠の文字列で構成されている。
ファイナンスベンチから150例のサンプルを用いて16のアートモデル構成を検証し,手動で回答を確認した。
- 参考スコア(独自算出の注目度): 28.865821741574237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: FinanceBench is a first-of-its-kind test suite for evaluating the performance
of LLMs on open book financial question answering (QA). It comprises 10,231
questions about publicly traded companies, with corresponding answers and
evidence strings. The questions in FinanceBench are ecologically valid and
cover a diverse set of scenarios. They are intended to be clear-cut and
straightforward to answer to serve as a minimum performance standard. We test
16 state of the art model configurations (including GPT-4-Turbo, Llama2 and
Claude2, with vector stores and long context prompts) on a sample of 150 cases
from FinanceBench, and manually review their answers (n=2,400). The cases are
available open-source. We show that existing LLMs have clear limitations for
financial QA. Notably, GPT-4-Turbo used with a retrieval system incorrectly
answered or refused to answer 81% of questions. While augmentation techniques
such as using longer context window to feed in relevant evidence improve
performance, they are unrealistic for enterprise settings due to increased
latency and cannot support larger financial documents. We find that all models
examined exhibit weaknesses, such as hallucinations, that limit their
suitability for use by enterprises.
- Abstract(参考訳): FinanceBench(ファイナンスベンチ)は、オープンブックの財務質問応答(QA)でLLMのパフォーマンスを評価するためのテストスイートである。
公開企業に関する10,231の質問からなり、対応する回答と証拠がある。
FinanceBenchの質問は生態学的に有効であり、さまざまなシナリオをカバーする。
それらは、最小パフォーマンス標準として機能するように、明確で簡単に答えられるように意図されている。
本研究は,GPT-4-Turbo,Llama2,Claude2を含む16種類のアートモデル構成をファイナンスベンチから150例のサンプルを用いて検証し,手動で回答を検証した(n=2,400)。
ケースはオープンソースで入手できる。
既存のllmは財務qaに明確な制限があることを示します。
特に、GPT-4-Turboは検索システムで誤って81%の回答を拒んだ。
より長いコンテキストウインドウを使用して関連するエビデンスをフィードするといった拡張技術はパフォーマンスを向上させるが、レイテンシの増加によるエンタープライズ環境では非現実的であり、より大きな財務文書をサポートできない。
調査したすべてのモデルは、幻覚などの弱点を示しており、企業による使用の適性を制限している。
関連論文リスト
- MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning [42.80085792749683]
本稿では,VQA(Visual Question Answering)ベンチマークであるMME-Financeを提案する。
このベンチマークの特徴は財務と専門知識であり、実際のユーザのニーズを反映したチャートの構築を含む。
また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。
論文 参考訳(メタデータ) (2024-11-05T18:59:51Z) - FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering [22.245216871611678]
FAMMAは、金融マルチ言語によるマルチモーダル質問応答のためのオープンソースのベンチマークである。
大学教科書と試験から精巧に収集された質問応答ペアは1,758個ある。
ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T15:41:26Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.10376440302076]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (2024-07-01T17:59:26Z) - SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation [50.061029816288936]
本稿では,SciFIBenchを科学的図形解釈ベンチマークとして紹介する。
主要なベンチマークは、12のカテゴリにまたがる2つのタスクで分割された1000個のゴールドの質問からなる。
質問はCS arXiv紙のフィギュアとキャプションから収集され、敵対的フィルタリングを用いてハードネガティブを見つけ、品質管理のための人間による検証を行う。
SciFIBench上で26のLMMを評価し、これは挑戦的なベンチマークであることが判明した。
論文 参考訳(メタデータ) (2024-05-14T17:54:17Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - InvestLM: A Large Language Model for Investment using Financial Domain
Instruction Tuning [19.22852919096857]
我々はLLaMA-65B(Touvron et al., 2023)に基づく新たな金融領域大言語モデルInvestLMを提案する。
より少ないアライメントにインスパイアされた我々は、小さなが多様な命令データセットを手作業でキュレートし、幅広い金融関連トピックをカバーした。
InvestLMは、財務文書の理解における強力な能力を示し、投資関連の質問に対する有益な回答を提供する。
論文 参考訳(メタデータ) (2023-09-15T02:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。