Fugu-MT 論文翻訳(概要): FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models

論文の概要: FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models

arxiv url: http://arxiv.org/abs/2501.18062v1
Date: Thu, 30 Jan 2025 00:06:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:03.995503
Title: FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models
Title（参考訳）: FinanceQA: 大規模言語モデルの財務分析能力を評価するベンチマーク
Authors: Spencer Mateega, Carlos Georgescu, Danny Tang,
Abstract要約: FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: FinanceQA is a testing suite that evaluates LLMs' performance on complex numerical financial analysis tasks that mirror real-world investment work. Despite recent advances, current LLMs fail to meet the strict accuracy requirements of financial institutions, with models failing approximately 60% of realistic tasks that mimic on-the-job analyses at hedge funds, private equity firms, investment banks, and other financial institutions. The primary challenges include hand-spreading metrics, adhering to standard accounting and corporate valuation conventions, and performing analysis under incomplete information - particularly in multi-step tasks requiring assumption generation. This performance gap highlights the disconnect between existing LLM capabilities and the demands of professional financial analysis that are inadequately tested by current testing architectures. Results show that higher-quality training data is needed to support such tasks, which we experiment with using OpenAI's fine-tuning API. FinanceQA is publicly released at [this https URL](https://huggingface.co/datasets/AfterQuery/FinanceQA).
Abstract（参考訳）: FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。近年の進歩にもかかわらず、現在のLLMは金融機関の厳格な精度要件を満たすことができず、ヘッジファンド、プライベートエクイティ会社、投資銀行、その他の金融機関で現在行われている分析を模倣する現実的なタスクの約60%は失敗している。主な課題は、メトリクスのハンドスプレッド、標準的な会計基準や企業評価規則の遵守、不完全な情報の下での分析(特に仮定生成を必要とする多段階のタスク)である。このパフォーマンスギャップは、既存のLLM機能と、現在のテストアーキテクチャで不十分にテストされる専門的な財務分析の要求との間の断絶を強調します。その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。 FinanceQAは、[このhttps URL](https://huggingface.co/datasets/AfterQuery/FinanceQA)で公開されています。

関連論文リスト

BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment [12.163992099059461]
BizFinBench.v2は中国と米国両方の株式市場のビジネスデータに基づく最初の大規模評価ベンチマークである。その結果、8つの基本的なタスクと2つのオンラインタスク、合計29,578人のエキスパートレベルのQ&Aペアが得られた。 ChatGPT-5は主要なタスクにおいて61.5%の精度を達成しているが、金融専門家とはかなりの差がある。オンラインタスクでは、DeepSeek-R1は他の商用LLMよりも優れています。
論文参考訳（メタデータ） (2026-01-10T02:51:53Z)
FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain [54.06289302468199]
FinTrust は金融アプリケーションにおける LLM の信頼性を評価するためのベンチマークである。 o4-miniのようなプロプライエタリなモデルは、安全性など、ほとんどのタスクでパフォーマンスに優れています。 DeepSeek-V3のようなオープンソースモデルは、業界レベルの公正さのような特定の分野に利点がある。
論文参考訳（メタデータ） (2025-10-17T01:45:49Z)
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文参考訳（メタデータ） (2025-10-07T20:06:15Z)
EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements [7.259647868714988]
EDINET-Benchは,大規模言語モデル(LLM)の性能を評価するための,オープンソースの日本語金融ベンチマークである。我々の実験は、最先端のLLMでさえも、不正検出と利益予測のためのバイナリ分類において、ロジスティック回帰よりもわずかに優れた性能を発揮していることを示している。我々のデータセット、ベンチマーク構築コード、評価コードは、LLMによる将来の金融研究を促進するために公開されています。
論文参考訳（メタデータ） (2025-06-10T13:03:36Z)
FinS-Pilot: A Benchmark for Online Financial System [17.65500174763836]
FinS-Pilotは、オンライン金融アプリケーションで大規模言語モデル(RAG)を評価するための新しいベンチマークである。当社のベンチマークでは,インテント分類フレームワークによって編成されたリアルタイムAPIデータと構造化テキストソースの両方を取り入れている。本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。
論文参考訳（メタデータ） (2025-05-31T03:50:19Z)
Towards Competent AI for Fundamental Analysis in Finance: A Benchmark Dataset and Evaluation [3.077814260904367]
ファイナンシャルステートメント分析に着目したベンチマークデータセットであるFinAR-Benchを提案する。重要な情報を抽出し、財務指標を計算し、論理的推論を適用する。本研究は, 基礎解析におけるLLMの現在の強度と限界を明確に把握するものである。
論文参考訳（メタデータ） (2025-05-22T07:06:20Z)
FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。 FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文参考訳（メタデータ） (2025-05-18T11:47:55Z)
FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。 FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文参考訳（メタデータ） (2025-04-22T11:30:13Z)
Expect the Unexpected: FailSafe Long Context QA for Finance [0.0]
FailSafeQAは、金融におけるヒューマン・インタフェース・インタラクションの6つのバリエーションに対して、LLMの堅牢性とコンテキスト認識性をテストするように設計されている。我々は,Qwen2.5-72B-Instruct を用いた LLM-as-a-Judge 手法を採用し,ロバストネス,コンテキストグラウンド,コンプライアンススコアを24個のオフザシェルフモデルで定義・算出するために,きめ細かい評価基準を用いた。
論文参考訳（メタデータ） (2025-02-10T10:29:28Z)
Auto-Generating Earnings Report Analysis via a Financial-Augmented LLM [1.3597551064547502]
本稿では,収益報告分析を自動生成する LLM の開発という,新たな課題を提案する。我々の手法は、既存の決算報告の詳細な分析と、この目的のためにLCMを微調整するためのユニークなアプローチを含む。広範な財務文書により、金融指導データを構築し、LLMを財務状況に適応させることを可能にした。
論文参考訳（メタデータ） (2024-12-11T08:09:42Z)
Large Language Models for Financial Aid in Financial Time-series Forecasting [0.4218593777811082]
金融支援の時系列予測は、限られた歴史的データセットと高次元財務情報のために困難である。我々は、従来のアプローチよりも優れた性能を示すために、事前訓練されたLPM(GPT-2をバックボーンとする)、トランスフォーマー、線形モデルなど、最先端の時系列モデルを用いている。
論文参考訳（メタデータ） (2024-10-24T12:41:47Z)
Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文参考訳（メタデータ） (2024-06-29T08:26:49Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文参考訳（メタデータ） (2024-03-19T09:45:33Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文参考訳（メタデータ） (2021-09-01T00:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。