論文の概要: FinanceBench: A New Benchmark for Financial Question Answering
- arxiv url: http://arxiv.org/abs/2311.11944v1
- Date: Mon, 20 Nov 2023 17:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 17:36:09.993301
- Title: FinanceBench: A New Benchmark for Financial Question Answering
- Title(参考訳): FinanceBench: 財務質問に対する新たなベンチマーク
- Authors: Pranab Islam, Anand Kannappan, Douwe Kiela, Rebecca Qian, Nino
Scherrer, Bertie Vidgen
- Abstract要約: FinanceBenchは、オープンブックの財務質問応答(QA)上でのLLMのパフォーマンスを評価するための、第一級テストスイートである。
公開企業に関する10,231の質問と、それに対応する回答と証拠の文字列で構成されている。
ファイナンスベンチから150例のサンプルを用いて16のアートモデル構成を検証し,手動で回答を確認した。
- 参考スコア(独自算出の注目度): 28.865821741574237
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: FinanceBench is a first-of-its-kind test suite for evaluating the performance
of LLMs on open book financial question answering (QA). It comprises 10,231
questions about publicly traded companies, with corresponding answers and
evidence strings. The questions in FinanceBench are ecologically valid and
cover a diverse set of scenarios. They are intended to be clear-cut and
straightforward to answer to serve as a minimum performance standard. We test
16 state of the art model configurations (including GPT-4-Turbo, Llama2 and
Claude2, with vector stores and long context prompts) on a sample of 150 cases
from FinanceBench, and manually review their answers (n=2,400). The cases are
available open-source. We show that existing LLMs have clear limitations for
financial QA. Notably, GPT-4-Turbo used with a retrieval system incorrectly
answered or refused to answer 81% of questions. While augmentation techniques
such as using longer context window to feed in relevant evidence improve
performance, they are unrealistic for enterprise settings due to increased
latency and cannot support larger financial documents. We find that all models
examined exhibit weaknesses, such as hallucinations, that limit their
suitability for use by enterprises.
- Abstract(参考訳): FinanceBench(ファイナンスベンチ)は、オープンブックの財務質問応答(QA)でLLMのパフォーマンスを評価するためのテストスイートである。
公開企業に関する10,231の質問からなり、対応する回答と証拠がある。
FinanceBenchの質問は生態学的に有効であり、さまざまなシナリオをカバーする。
それらは、最小パフォーマンス標準として機能するように、明確で簡単に答えられるように意図されている。
本研究は,GPT-4-Turbo,Llama2,Claude2を含む16種類のアートモデル構成をファイナンスベンチから150例のサンプルを用いて検証し,手動で回答を検証した(n=2,400)。
ケースはオープンソースで入手できる。
既存のllmは財務qaに明確な制限があることを示します。
特に、GPT-4-Turboは検索システムで誤って81%の回答を拒んだ。
より長いコンテキストウインドウを使用して関連するエビデンスをフィードするといった拡張技術はパフォーマンスを向上させるが、レイテンシの増加によるエンタープライズ環境では非現実的であり、より大きな財務文書をサポートできない。
調査したすべてのモデルは、幻覚などの弱点を示しており、企業による使用の適性を制限している。
関連論文リスト
- Expect the Unexpected: FailSafe Long Context QA for Finance [0.0]
FailSafeQAは、金融におけるヒューマン・インタフェース・インタラクションの6つのバリエーションに対して、LLMの堅牢性とコンテキスト認識性をテストするように設計されている。
我々は,Qwen2.5-72B-Instruct を用いた LLM-as-a-Judge 手法を採用し,ロバストネス,コンテキストグラウンド,コンプライアンススコアを24個のオフザシェルフモデルで定義・算出するために,きめ細かい評価基準を用いた。
論文 参考訳(メタデータ) (2025-02-10T10:29:28Z) - FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - FLAME: Financial Large-Language Model Assessment and Metrics Evaluation [2.6420673380196824]
本稿では,中国における総合的なLLM評価システムであるFLAMEを紹介する。
FLAME-Cerは14種類の認証ファイナンスをカバーしており、合計で約16,000の慎重に選択された質問がある。
FLAME-Sceは10の主要な金融ビジネスシナリオ、21の二次金融ビジネスシナリオ、100近い第三次金融アプリケーションタスクの包括的な評価セットで構成されている。
論文 参考訳(メタデータ) (2025-01-03T09:17:23Z) - FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering [22.245216871611678]
FAMMAは、金融マルチ言語によるマルチモーダル質問応答のためのオープンソースのベンチマークである。
大学教科書と試験から精巧に収集された質問応答ペアは1,758個ある。
ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T15:41:26Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.10376440302076]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (2024-07-01T17:59:26Z) - SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation [50.061029816288936]
SciFIBenchは、2000の質問を8つのカテゴリに分けた科学的図形解釈ベンチマークである。
質問はarXiv紙のフィギュアとキャプションからキュレートされ、相手のフィルターを使ってハードネガティブを見つけ、品質管理のための人間による検証を行う。
我々はSciFIBench上で28LMMを評価し、これは挑戦的なベンチマークであることが判明した。
論文 参考訳(メタデータ) (2024-05-14T17:54:17Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。