論文の概要: FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning
- arxiv url: http://arxiv.org/abs/2509.13160v1
- Date: Tue, 16 Sep 2025 15:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.143342
- Title: FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning
- Title(参考訳): FinSearchComp:ファイナンシャル検索と推論の現実的でエキスパートレベルの評価を目指す
- Authors: Liang Hu, Jianpeng Jiao, Jiashuo Liu, Yanle Ren, Zhoufutu Wen, Kaiyuan Zhang, Xuanliang Zhang, Xiang Gao, Tianci He, Fei Hu, Yali Liao, Zaiyuan Wang, Chenghao Yang, Qianyu Yang, Mingren Yin, Zhiyuan Zeng, Ge Zhang, Xinyi Zhang, Xiying Zhao, Zhenwei Zhu, Hongseok Namkoong, Wenhao Huang, Yuwen Tang,
- Abstract要約: FinSearchCompは、現実的でオープンドメインの財務検索と推論のための、初めての完全なオープンソースベンチマークである。
このベンチマークには、世界および大中国市場にわたる635の質問が含まれている。
Grok 4(Web)は、専門家レベルの精度に近づき、グローバルサブセットのトップである。
- 参考スコア(独自算出の注目度): 30.252244345152956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Search has emerged as core infrastructure for LLM-based agents and is widely viewed as critical on the path toward more general intelligence. Finance is a particularly demanding proving ground: analysts routinely conduct complex, multi-step searches over time-sensitive, domain-specific data, making it ideal for assessing both search proficiency and knowledge-grounded reasoning. Yet no existing open financial datasets evaluate data searching capability of end-to-end agents, largely because constructing realistic, complicated tasks requires deep financial expertise and time-sensitive data is hard to evaluate. We present FinSearchComp, the first fully open-source agent benchmark for realistic, open-domain financial search and reasoning. FinSearchComp comprises three tasks -- Time-Sensitive Data Fetching, Simple Historical Lookup, and Complex Historical Investigation -- closely reproduce real-world financial analyst workflows. To ensure difficulty and reliability, we engage 70 professional financial experts for annotation and implement a rigorous multi-stage quality-assurance pipeline. The benchmark includes 635 questions spanning global and Greater China markets, and we evaluate 21 models (products) on it. Grok 4 (web) tops the global subset, approaching expert-level accuracy. DouBao (web) leads on the Greater China subset. Experimental analyses show that equipping agents with web search and financial plugins substantially improves results on FinSearchComp, and the country origin of models and tools impact performance significantly.By aligning with realistic analyst tasks and providing end-to-end evaluation, FinSearchComp offers a professional, high-difficulty testbed for complex financial search and reasoning.
- Abstract(参考訳): LLMベースのエージェントのコアインフラストラクチャとして検索が登場し、より汎用的なインテリジェンスへの道のりについて、広く批判的と見なされている。
アナリストは、時間に敏感でドメイン固有のデータに対して、複雑で多段階の検索を常行するので、検索の習熟度と知識に基づく推論の両方を評価するのに理想的だ。
しかし、現実的で複雑なタスクを構築するには深い財務知識が必要で、時間に敏感なデータは評価が難しいため、既存のオープンファイナンシャルデータセットではエンドツーエンドエージェントのデータ検索能力を評価することができない。
我々はFinSearchCompを紹介した。FinSearchCompは、現実的で、オープンドメインの財務検索と推論のための、最初の完全なオープンソースエージェントベンチマークである。
FinSearchCompは3つのタスク - Time-Sensitive Data Fetching, Simple Historical Lookup, Complex Historical Investigation – で構成され、現実世界の財務アナリストワークフローを密接に再現する。
難易度と信頼性を確保するため、70人の専門的な金融専門家がアノテーションに携わり、厳格な多段階品質保証パイプラインを実装しています。
このベンチマークには、世界および大中国市場にわたる635の質問が含まれており、21のモデル(製品)を評価しています。
Grok 4(Web)は、専門家レベルの精度に近づき、グローバルサブセットのトップである。
DouBao(ウェブ)は、大中華圏のサブセットを導いている。
実験分析により、FinSearchCompは、Web検索と金融プラグインを装備するエージェントがFinSearchCompの結果を大幅に改善し、モデルやツールの国産化がパフォーマンスに大きく影響することを示し、現実的な分析タスクと協調し、エンドツーエンド評価を提供することにより、複雑な財務検索と推論のためのプロフェッショナルで高機能なテストベッドを提供する。
関連論文リスト
- FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおけるマルチステップ推論による検索評価のための最初の大規模ベンチマークである。
このベンチマークは、S&P-100上場企業に関する専門家による3,429の例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [65.04104723843264]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。