論文の概要: FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning
- arxiv url: http://arxiv.org/abs/2509.13160v1
- Date: Tue, 16 Sep 2025 15:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.143342
- Title: FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning
- Title(参考訳): FinSearchComp:ファイナンシャル検索と推論の現実的でエキスパートレベルの評価を目指す
- Authors: Liang Hu, Jianpeng Jiao, Jiashuo Liu, Yanle Ren, Zhoufutu Wen, Kaiyuan Zhang, Xuanliang Zhang, Xiang Gao, Tianci He, Fei Hu, Yali Liao, Zaiyuan Wang, Chenghao Yang, Qianyu Yang, Mingren Yin, Zhiyuan Zeng, Ge Zhang, Xinyi Zhang, Xiying Zhao, Zhenwei Zhu, Hongseok Namkoong, Wenhao Huang, Yuwen Tang,
- Abstract要約: FinSearchCompは、現実的でオープンドメインの財務検索と推論のための、初めての完全なオープンソースベンチマークである。
このベンチマークには、世界および大中国市場にわたる635の質問が含まれている。
Grok 4(Web)は、専門家レベルの精度に近づき、グローバルサブセットのトップである。
- 参考スコア(独自算出の注目度): 30.252244345152956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Search has emerged as core infrastructure for LLM-based agents and is widely viewed as critical on the path toward more general intelligence. Finance is a particularly demanding proving ground: analysts routinely conduct complex, multi-step searches over time-sensitive, domain-specific data, making it ideal for assessing both search proficiency and knowledge-grounded reasoning. Yet no existing open financial datasets evaluate data searching capability of end-to-end agents, largely because constructing realistic, complicated tasks requires deep financial expertise and time-sensitive data is hard to evaluate. We present FinSearchComp, the first fully open-source agent benchmark for realistic, open-domain financial search and reasoning. FinSearchComp comprises three tasks -- Time-Sensitive Data Fetching, Simple Historical Lookup, and Complex Historical Investigation -- closely reproduce real-world financial analyst workflows. To ensure difficulty and reliability, we engage 70 professional financial experts for annotation and implement a rigorous multi-stage quality-assurance pipeline. The benchmark includes 635 questions spanning global and Greater China markets, and we evaluate 21 models (products) on it. Grok 4 (web) tops the global subset, approaching expert-level accuracy. DouBao (web) leads on the Greater China subset. Experimental analyses show that equipping agents with web search and financial plugins substantially improves results on FinSearchComp, and the country origin of models and tools impact performance significantly.By aligning with realistic analyst tasks and providing end-to-end evaluation, FinSearchComp offers a professional, high-difficulty testbed for complex financial search and reasoning.
- Abstract(参考訳): LLMベースのエージェントのコアインフラストラクチャとして検索が登場し、より汎用的なインテリジェンスへの道のりについて、広く批判的と見なされている。
アナリストは、時間に敏感でドメイン固有のデータに対して、複雑で多段階の検索を常行するので、検索の習熟度と知識に基づく推論の両方を評価するのに理想的だ。
しかし、現実的で複雑なタスクを構築するには深い財務知識が必要で、時間に敏感なデータは評価が難しいため、既存のオープンファイナンシャルデータセットではエンドツーエンドエージェントのデータ検索能力を評価することができない。
我々はFinSearchCompを紹介した。FinSearchCompは、現実的で、オープンドメインの財務検索と推論のための、最初の完全なオープンソースエージェントベンチマークである。
FinSearchCompは3つのタスク - Time-Sensitive Data Fetching, Simple Historical Lookup, Complex Historical Investigation – で構成され、現実世界の財務アナリストワークフローを密接に再現する。
難易度と信頼性を確保するため、70人の専門的な金融専門家がアノテーションに携わり、厳格な多段階品質保証パイプラインを実装しています。
このベンチマークには、世界および大中国市場にわたる635の質問が含まれており、21のモデル(製品)を評価しています。
Grok 4(Web)は、専門家レベルの精度に近づき、グローバルサブセットのトップである。
DouBao(ウェブ)は、大中華圏のサブセットを導いている。
実験分析により、FinSearchCompは、Web検索と金融プラグインを装備するエージェントがFinSearchCompの結果を大幅に改善し、モデルやツールの国産化がパフォーマンスに大きく影響することを示し、現実的な分析タスクと協調し、エンドツーエンド評価を提供することにより、複雑な財務検索と推論のためのプロフェッショナルで高機能なテストベッドを提供する。
関連論文リスト
- BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment [12.163992099059461]
BizFinBench.v2は中国と米国両方の株式市場のビジネスデータに基づく最初の大規模評価ベンチマークである。
その結果、8つの基本的なタスクと2つのオンラインタスク、合計29,578人のエキスパートレベルのQ&Aペアが得られた。
ChatGPT-5は主要なタスクにおいて61.5%の精度を達成しているが、金融専門家とはかなりの差がある。
オンラインタスクでは、DeepSeek-R1は他の商用LLMよりも優れています。
論文 参考訳(メタデータ) (2026-01-10T02:51:53Z) - FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。
プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。
2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文 参考訳(メタデータ) (2025-10-19T14:05:35Z) - FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis [110.5695516127813]
HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。
FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。
6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
論文 参考訳(メタデータ) (2025-10-15T17:21:56Z) - FinMR: A Knowledge-Intensive Multimodal Benchmark for Advanced Financial Reasoning [10.985136487771364]
FinMRは専門アナリストの基準で専門家レベルの財務推論能力を評価するために設計された知識集約型マルチモーダルデータセットである。
これは15の金融分野において、3,200以上の厳格にキュレートされ、専門的に注釈付けされた質問応答ペアで構成されている。
FinMRは、専門的なアナリストレベルの能力に向け、マルチモーダルな財務推論を評価し、前進させるための重要なベンチマークツールとして、自らを確立している。
論文 参考訳(メタデータ) (2025-10-09T06:49:55Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおけるマルチステップ推論による検索評価のための最初の大規模ベンチマークである。
このベンチマークは、S&P-100上場企業に関する専門家による3,429の例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [65.04104723843264]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。