Fugu-MT 論文翻訳(概要): FinanceBench: A New Benchmark for Financial Question Answering

論文の概要: FinanceBench: A New Benchmark for Financial Question Answering

arxiv url: http://arxiv.org/abs/2311.11944v1
Date: Mon, 20 Nov 2023 17:28:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 17:36:09.993301
Title: FinanceBench: A New Benchmark for Financial Question Answering
Title（参考訳）: FinanceBench: 財務質問に対する新たなベンチマーク
Authors: Pranab Islam, Anand Kannappan, Douwe Kiela, Rebecca Qian, Nino Scherrer, Bertie Vidgen
Abstract要約: FinanceBenchは、オープンブックの財務質問応答(QA)上でのLLMのパフォーマンスを評価するための、第一級テストスイートである。公開企業に関する10,231の質問と、それに対応する回答と証拠の文字列で構成されている。ファイナンスベンチから150例のサンプルを用いて16のアートモデル構成を検証し,手動で回答を確認した。
参考スコア（独自算出の注目度）: 28.865821741574237
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: FinanceBench is a first-of-its-kind test suite for evaluating the performance of LLMs on open book financial question answering (QA). It comprises 10,231 questions about publicly traded companies, with corresponding answers and evidence strings. The questions in FinanceBench are ecologically valid and cover a diverse set of scenarios. They are intended to be clear-cut and straightforward to answer to serve as a minimum performance standard. We test 16 state of the art model configurations (including GPT-4-Turbo, Llama2 and Claude2, with vector stores and long context prompts) on a sample of 150 cases from FinanceBench, and manually review their answers (n=2,400). The cases are available open-source. We show that existing LLMs have clear limitations for financial QA. Notably, GPT-4-Turbo used with a retrieval system incorrectly answered or refused to answer 81% of questions. While augmentation techniques such as using longer context window to feed in relevant evidence improve performance, they are unrealistic for enterprise settings due to increased latency and cannot support larger financial documents. We find that all models examined exhibit weaknesses, such as hallucinations, that limit their suitability for use by enterprises.
Abstract（参考訳）: FinanceBench(ファイナンスベンチ)は、オープンブックの財務質問応答(QA)でLLMのパフォーマンスを評価するためのテストスイートである。公開企業に関する10,231の質問からなり、対応する回答と証拠がある。 FinanceBenchの質問は生態学的に有効であり、さまざまなシナリオをカバーする。それらは、最小パフォーマンス標準として機能するように、明確で簡単に答えられるように意図されている。本研究は,GPT-4-Turbo,Llama2,Claude2を含む16種類のアートモデル構成をファイナンスベンチから150例のサンプルを用いて検証し,手動で回答を検証した(n=2,400)。ケースはオープンソースで入手できる。既存のllmは財務qaに明確な制限があることを示します。特に、GPT-4-Turboは検索システムで誤って81%の回答を拒んだ。より長いコンテキストウインドウを使用して関連するエビデンスをフィードするといった拡張技術はパフォーマンスを向上させるが、レイテンシの増加によるエンタープライズ環境では非現実的であり、より大きな財務文書をサポートできない。調査したすべてのモデルは、幻覚などの弱点を示しており、企業による使用の適性を制限している。

関連論文リスト

BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs [7.9458352414205295]
大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、財務、法律、医療といった重要な領域での信頼性の評価は依然として難しいままです。 BizFinBenchは、実世界の金融アプリケーションにおけるLSMの評価に特化して設計された最初のベンチマークである。 BizFinBenchは中国語で6,781の注釈付きクエリで構成されており、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがっている。
論文参考訳（メタデータ） (2025-05-26T03:23:02Z)
Expect the Unexpected: FailSafe Long Context QA for Finance [0.0]
FailSafeQAは、金融におけるヒューマン・インタフェース・インタラクションの6つのバリエーションに対して、LLMの堅牢性とコンテキスト認識性をテストするように設計されている。我々は,Qwen2.5-72B-Instruct を用いた LLM-as-a-Judge 手法を採用し,ロバストネス,コンテキストグラウンド,コンプライアンススコアを24個のオフザシェルフモデルで定義・算出するために,きめ細かい評価基準を用いた。
論文参考訳（メタデータ） (2025-02-10T10:29:28Z)
FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文参考訳（メタデータ） (2025-01-30T00:06:55Z)
FLAME: Financial Large-Language Model Assessment and Metrics Evaluation [2.6420673380196824]
本稿では,中国における総合的なLLM評価システムであるFLAMEを紹介する。 FLAME-Cerは14種類の認証ファイナンスをカバーしており、合計で約16,000の慎重に選択された質問がある。 FLAME-Sceは10の主要な金融ビジネスシナリオ、21の二次金融ビジネスシナリオ、100近い第三次金融アプリケーションタスクの包括的な評価セットで構成されている。
論文参考訳（メタデータ） (2025-01-03T09:17:23Z)
MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning [42.80085792749683]
本稿では,VQA(Visual Question Answering)ベンチマークであるMME-Financeを提案する。このベンチマークの特徴は財務と専門知識であり、実際のユーザのニーズを反映したチャートの構築を含む。また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。
論文参考訳（メタデータ） (2024-11-05T18:59:51Z)
FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering [22.245216871611678]
FAMMAは、金融マルチ言語によるマルチモーダル質問応答のためのオープンソースのベンチマークである。大学教科書と試験から精巧に収集された質問応答ペアは1,758個ある。ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T15:41:26Z)
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文参考訳（メタデータ） (2024-08-20T16:15:28Z)
CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文参考訳（メタデータ） (2024-07-02T14:34:36Z)
MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.10376440302076]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文参考訳（メタデータ） (2024-07-01T17:59:26Z)
SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation [50.061029816288936]
本稿では,SciFIBenchを科学的図形解釈ベンチマークとして紹介する。主要なベンチマークは、12のカテゴリにまたがる2つのタスクで分割された1000個のゴールドの質問からなる。質問はCS arXiv紙のフィギュアとキャプションから収集され、敵対的フィルタリングを用いてハードネガティブを見つけ、品質管理のための人間による検証を行う。 SciFIBench上で26のLMMを評価し、これは挑戦的なベンチマークであることが判明した。
論文参考訳（メタデータ） (2024-05-14T17:54:17Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
InvestLM: A Large Language Model for Investment using Financial Domain Instruction Tuning [19.22852919096857]
我々はLLaMA-65B(Touvron et al., 2023)に基づく新たな金融領域大言語モデルInvestLMを提案する。より少ないアライメントにインスパイアされた我々は、小さなが多様な命令データセットを手作業でキュレートし、幅広い金融関連トピックをカバーした。 InvestLMは、財務文書の理解における強力な能力を示し、投資関連の質問に対する有益な回答を提供する。
論文参考訳（メタデータ） (2023-09-15T02:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。