論文の概要: Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings
- arxiv url: http://arxiv.org/abs/2602.07294v2
- Date: Thu, 12 Feb 2026 09:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 14:31:53.402156
- Title: Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings
- Title(参考訳): Fin-RATE: SECファイリングにおけるLLMのリアルタイム財務分析と追跡評価ベンチマーク
- Authors: Yidong Jiang, Junrong Chen, Eftychia Makri, Jialin Chen, Peiwen Li, Ali Maatouk, Leandros Tassiulas, Eliot Brenner, Bing Xiang, Rex Ying,
- Abstract要約: Fin-RATE(フィン・ラテ)は、米国証券取引委員会(SEC)の申請書類と財務アナリストを反映したベンチマークである。
我々は、オープンソース、クローズドソース、金融特化モデルにまたがって、Large Language Models(LLM)をリードする17のベンチマークを行った。
その結果、タスクが単一文書推論から縦断的、横断的分析へ移行するにつれて、精度が18.60%低下し、14.35%低下した。
- 参考スコア(独自算出の注目度): 31.87459935714186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing deployment of Large Language Models (LLMs) in the finance domain, LLMs are increasingly expected to parse complex regulatory disclosures. However, existing benchmarks often focus on isolated details, failing to reflect the complexity of professional analysis that requires synthesizing information across multiple documents, reporting periods, and corporate entities. Furthermore, these benchmarks do not disentangle whether errors arise from retrieval failures, generation inaccuracies, domain-specific reasoning mistakes, or misinterpretation of the query or context, making it difficult to precisely diagnose performance bottlenecks. To bridge these gaps, we introduce Fin-RATE, a benchmark built on U.S. Securities and Exchange Commission (SEC) filings and mirroring financial analyst workflows through three pathways: detail-oriented reasoning within individual disclosures, cross-entity comparison under shared topics, and longitudinal tracking of the same firm across reporting periods. We benchmark 17 leading LLMs, spanning open-source, closed-source, and finance-specialized models, under both ground-truth context and retrieval-augmented settings. Results show substantial performance degradation, with accuracy dropping by 18.60\% and 14.35\% as tasks shift from single-document reasoning to longitudinal and cross-entity analysis. This degradation is driven by increased comparison hallucinations, temporal and entity mismatches, and is further reflected in declines in reasoning quality and factual consistency--limitations that existing benchmarks have yet to formally categorize or quantify.
- Abstract(参考訳): 金融分野におけるLarge Language Models(LLM)の展開の増加に伴い、LLMは複雑な規制の開示を解析することがますます期待されている。
しかし、既存のベンチマークはしばしば孤立した詳細に焦点を当て、複数のドキュメント、レポート期間、および企業エンティティにわたる情報の合成を必要とする専門的な分析の複雑さを反映していない。
さらに、これらのベンチマークは、検索エラー、生成不正確性、ドメイン固有の推論ミス、あるいはクエリやコンテキストの誤解釈からエラーが発生するかどうかを判断しないため、パフォーマンスボトルネックを正確に診断することは困難である。
これらのギャップを埋めるために、米国証券取引委員会(SEC)の申請と金融アナリストのワークフローを反映したベンチマークであるFin-RATEを紹介します。
我々は,オープンソース,クローズドソース,ファイナンス特化モデルにまたがる17のLLMを,基幹コンテキストと検索強化設定の両方でベンチマークする。
その結果、タスクが単一文書推論から縦・横方向の分析に移行するにつれて、精度が18.60\%、14.35\%低下した。
この劣化は、比較幻覚、時間的および実体的ミスマッチの増加によって引き起こされ、既存のベンチマークが公式に分類または定量化していないような、品質と事実的一貫性の低下にさらに反映されている。
関連論文リスト
- TSAQA: Time Series Analysis Question And Answering Benchmark [85.35545785252309]
時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。
TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
論文 参考訳(メタデータ) (2026-01-30T17:28:56Z) - Towards Comprehensive Benchmarking Infrastructure for LLMs In Software Engineering [19.584762693453893]
BEHELMは、ソフトウェア・シナリオ仕様とマルチメトリック評価を一体化する総合的なベンチマーク基盤である。
私たちのゴールは、ソフトウェア工学におけるLLMの公平で現実的で将来的な評価を可能にしながら、ベンチマークを構築するのに必要なオーバーヘッドを減らすことです。
論文 参考訳(メタデータ) (2026-01-28T21:55:10Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Enhancing Business Analytics through Hybrid Summarization of Financial Reports [0.152292571922932]
財務報告と決算報告には大量の構造化情報と半構造化情報が含まれている。
本稿では,抽出的および抽象的手法を組み合わせて,簡潔かつ現実的に信頼性の高い要約を生成するハイブリッド要約フレームワークを提案する。
これらの知見は、長い財務文書を有効活用できるビジネスインテリジェンスに蒸留する実用的な要約システムの開発を支援するものである。
論文 参考訳(メタデータ) (2025-12-28T16:25:12Z) - Understanding Structured Financial Data with LLMs: A Case Study on Fraud Detection [17.04809129025246]
FinFRE-RAGは、数値・分類属性のコンパクトなサブセットを自然言語にシリアライズするために重要誘導特徴量削減を適用した2段階のアプローチである。
LLMは人間の読みやすい説明を作成し、特徴分析を促進することができるため、詐欺分析者の手作業の負担を軽減できる可能性がある。
論文 参考訳(メタデータ) (2025-12-15T07:09:11Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - Your AI, Not Your View: The Bias of LLMs in Investment Analysis [62.388554963415906]
金融において、Large Language Models (LLMs) は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違から生じる、頻繁な知識紛争に直面している。
これらの対立は、モデル固有のバイアスが制度的目的と誤認される現実世界の投資サービスにおいて特に問題となる。
本研究では,このような紛争シナリオにおける創発的行動を調べるための実験的枠組みを提案し,投資分析におけるバイアスの定量的分析を行う。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Quantifying Qualitative Insights: Leveraging LLMs to Market Predict [0.0]
本研究は、証券会社からの日々の報告を活用して高品質な文脈情報を作成することによる課題に対処する。
レポートはテキストベースのキーファクタにセグメント化され、価格情報などの数値データと組み合わせてコンテキストセットを形成する。
工芸的なプロンプトは重要な要素にスコアを割り当て、質的な洞察を定量的な結果に変換するように設計されている。
論文 参考訳(メタデータ) (2024-11-13T07:45:40Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。