論文の概要: Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings
- arxiv url: http://arxiv.org/abs/2602.07294v1
- Date: Sat, 07 Feb 2026 00:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.555866
- Title: Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings
- Title(参考訳): Fin-RATE: SECファイリングにおけるLLMのリアルタイム財務分析と追跡評価ベンチマーク
- Authors: Yidong Jiang, Junrong Chen, Eftychia Makri, Jialin Chen, Peiwen Li, Ali Maatouk, Leandros Tassiulas, Eliot Brenner, Bing Xiang, Rex Ying,
- Abstract要約: Fin-RATEは、米国証券取引委員会(SEC)の提出書類に基づいて構築されたベンチマークで、個別の開示、共有トピックによるクロスエンタリティ比較、レポート期間を通じて同じ会社の経時的追跡について、財務アナリストの推論を反映している。
その結果、タスクが単一文書推論から縦断的、横断的分析へ移行するにつれて、精度が18.60%低下し、14.35%低下した。
- 参考スコア(独自算出の注目度): 31.87459935714186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With increasing deployment of Large Language Models (LLMs) in the finance domain, LLMs are increasingly expected to parse complex regulatory disclosures. However, existing benchmarks often focus on isolated details, failing to reflect the complexity of professional analysis that requires synthesizing information across multiple documents, reporting periods, and corporate entities. They do not distinguish whether errors stem from retrieval failures, generation flaws, finance-specific reasoning mistakes, or misunderstanding of the query or context. This makes it difficult to pinpoint performance bottlenecks. To bridge these gaps, we introduce Fin-RATE, a benchmark built on U.S. Securities and Exchange Commission (SEC) filings and mirror financial analyst workflows through three pathways: detail-oriented reasoning within individual disclosures, cross-entity comparison under shared topics, and longitudinal tracking of the same firm across reporting periods. We benchmark 17 leading LLMs, spanning open-source, closed-source, and finance-specialized models, under both ground-truth context and retrieval-augmented settings. Results show substantial performance degradation, with accuracy dropping by 18.60% and 14.35% as tasks shift from single-document reasoning to longitudinal and cross-entity analysis. This is driven by rising comparison hallucinations, time and entity mismatches, and mirrored by declines in reasoning and factuality--limitations that prior benchmarks have yet to formally categorize or quantify.
- Abstract(参考訳): 金融分野におけるLarge Language Models(LLM)の展開の増加に伴い、LLMは複雑な規制開示を解析することがますます期待されている。
しかし、既存のベンチマークはしばしば孤立した詳細に焦点を当て、複数のドキュメント、レポート期間、および企業エンティティにわたる情報の合成を必要とする専門的な分析の複雑さを反映していない。
それらは、エラーが検索の失敗、生成の欠陥、ファイナンス固有の推論ミス、クエリやコンテキストの誤解に起因するかどうかを区別しない。
これにより、パフォーマンスのボトルネックを特定するのが難しくなります。
これらのギャップを埋めるために、米国証券取引委員会(SEC)の申請と金融アナリストのワークフローを反映したベンチマークであるFin-RATEを紹介します。
我々は,オープンソース,クローズドソース,ファイナンス特化モデルにまたがる17のLLMを,基幹コンテキストと検索強化設定の両方でベンチマークする。
その結果、タスクが単一文書推論から縦断的、横断的分析へ移行するにつれて、精度が18.60%低下し、14.35%低下した。
これは、比較幻覚、時間と実体のミスマッチが上昇し、推論と事実性の低下によって反映される。
関連論文リスト
- Enhancing Business Analytics through Hybrid Summarization of Financial Reports [0.152292571922932]
財務報告と決算報告には大量の構造化情報と半構造化情報が含まれている。
本稿では,抽出的および抽象的手法を組み合わせて,簡潔かつ現実的に信頼性の高い要約を生成するハイブリッド要約フレームワークを提案する。
これらの知見は、長い財務文書を有効活用できるビジネスインテリジェンスに蒸留する実用的な要約システムの開発を支援するものである。
論文 参考訳(メタデータ) (2025-12-28T16:25:12Z) - Understanding Structured Financial Data with LLMs: A Case Study on Fraud Detection [17.04809129025246]
FinFRE-RAGは、数値・分類属性のコンパクトなサブセットを自然言語にシリアライズするために重要誘導特徴量削減を適用した2段階のアプローチである。
LLMは人間の読みやすい説明を作成し、特徴分析を促進することができるため、詐欺分析者の手作業の負担を軽減できる可能性がある。
論文 参考訳(メタデータ) (2025-12-15T07:09:11Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - Your AI, Not Your View: The Bias of LLMs in Investment Analysis [62.388554963415906]
金融において、Large Language Models (LLMs) は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違から生じる、頻繁な知識紛争に直面している。
これらの対立は、モデル固有のバイアスが制度的目的と誤認される現実世界の投資サービスにおいて特に問題となる。
本研究では,このような紛争シナリオにおける創発的行動を調べるための実験的枠組みを提案し,投資分析におけるバイアスの定量的分析を行う。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。