論文の概要: FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis
- arxiv url: http://arxiv.org/abs/2510.13936v1
- Date: Wed, 15 Oct 2025 17:21:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.552954
- Title: FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis
- Title(参考訳): FinDeepResearch:厳格な財務分析におけるディープリサーチエージェントの評価
- Authors: Fengbin Zhu, Xiang Yao Ng, Ziyang Liu, Chang Liu, Xianwei Zeng, Chao Wang, Tianhui Tan, Xuan Yao, Pengyang Shao, Min Xu, Zixuan Wang, Jing Wang, Xin Lin, Junfeng Li, Jingxian Zhu, Yang Zhang, Wenjie Wang, Fuli Feng, Richang Hong, Huanbo Luan, Ke-Wei Huang, Tat-Seng Chua,
- Abstract要約: HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。
FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。
6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
- 参考スコア(独自算出の注目度): 110.5695516127813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Research (DR) agents, powered by advanced Large Language Models (LLMs), have recently garnered increasing attention for their capability in conducting complex research tasks. However, existing literature lacks a rigorous and systematic evaluation of DR Agent's capabilities in critical research analysis. To address this gap, we first propose HisRubric, a novel evaluation framework with a hierarchical analytical structure and a fine-grained grading rubric for rigorously assessing DR agents' capabilities in corporate financial analysis. This framework mirrors the professional analyst's workflow, progressing from data recognition to metric calculation, and finally to strategic summarization and interpretation. Built on this framework, we construct a FinDeepResearch benchmark that comprises 64 listed companies from 8 financial markets across 4 languages, encompassing a total of 15,808 grading items. We further conduct extensive experiments on the FinDeepResearch using 16 representative methods, including 6 DR agents, 5 LLMs equipped with both deep reasoning and search capabilities, and 5 LLMs with deep reasoning capabilities only. The results reveal the strengths and limitations of these approaches across diverse capabilities, financial markets, and languages, offering valuable insights for future research and development. The benchmark and evaluation code will be made publicly available.
- Abstract(参考訳): 高度言語モデル(LLM)を駆使したDeep Research (DR) エージェントは、最近、複雑な研究タスクを実行する能力に注目が集まっている。
しかし、既存の文献は、批判的な研究分析におけるDRエージェントの能力の厳密で体系的な評価を欠いている。
このギャップに対処するために,企業財務分析におけるDRエージェントの能力を厳格に評価するための階層的分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークHisRubricを提案する。
このフレームワークはプロのアナリストのワークフローを反映し、データ認識からメートル法計算へと進み、最終的には戦略的要約と解釈へと進化する。
このフレームワーク上に構築されたFinDeepResearchベンチマークは、4つの言語にわたる8つの金融市場から64の上場企業で構成されており、合計15,808のグレーティングアイテムを含んでいる。
さらに,6つのDRエージェント,深い推論機能と探索機能を備えた5つのLLM,深い推論機能を備えた5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
結果は、様々な能力、金融市場、言語にまたがるアプローチの強みと限界を明らかにし、将来の研究開発に貴重な洞察を提供する。
ベンチマークと評価コードは一般公開される予定だ。
関連論文リスト
- Understanding DeepResearch via Reports [41.60038455664918]
DeepResearchは、高度な推論とマルチツール統合を通じて専門家レベルの研究を行う、変革的なAIパラダイムである。
これらのシステムを評価することは、オープンな研究シナリオと、独立した機能に焦点を当てた既存のベンチマークのため、依然として極めて難しい。
DeepResearch-ReportEvalは、DeepResearchシステムを最も代表的なアウトプットで評価するための総合的なフレームワークである。
論文 参考訳(メタデータ) (2025-10-09T07:03:43Z) - Towards Personalized Deep Research: Benchmarks and Evaluations [56.581105664044436]
我々は、Deep Research Agents(DRA)におけるパーソナライズ評価のための最初のベンチマークであるPersonalized Deep Research Benchを紹介する。
さまざまな研究タスク50と、構造化されたペルソナ属性と動的現実世界のコンテキストを組み合わせた25のユーザプロファイルを組み合わせ、250のリアルなユーザタスククエリを生成する。
さまざまなシステムの実験は、パーソナライズされたディープリサーチを扱う際の現在の能力と限界を強調します。
論文 参考訳(メタデータ) (2025-09-29T17:39:17Z) - Deep Research: A Survey of Autonomous Research Agents [33.96146020332329]
大規模言語モデル(LLM)の急速な進歩は、複雑なタスクを自律的に実行可能なエージェントシステムの開発を促している。
これらの制約を克服するため、深層研究のパラダイムが提案され、エージェントは、Webベースの証拠に根ざした包括的で忠実な分析レポートを生成するために、計画、検索、合成に積極的に従事する。
本稿では,計画,質問開発,Web探索,レポート生成の4段階からなるディープリサーチパイプラインの体系的概要について述べる。
論文 参考訳(メタデータ) (2025-08-18T09:26:14Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - SECQUE: A Benchmark for Evaluating Real-World Financial Analysis Capabilities [0.31410859223862103]
SECQUEは4つの主要なカテゴリにわたるSECの申請分析に関する専門家による565の質問で構成されている。
モデル性能を評価するため,複数のLLM判断器を利用した評価機構であるSECQUE-Judgeを開発した。
論文 参考訳(メタデータ) (2025-04-06T19:59:41Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Beyond Classification: Financial Reasoning in State-of-the-Art Language
Models [0.0]
大規模言語モデル(LLM)は複雑な多段階推論タスクにおいて顕著な能力を示した。
本研究は,金融分野におけるLLMの適用可能性に関する包括的調査である。
コヒーレントな財務推論を生成する能力は、まず6Bパラメータで現れ、より良い命令チューニングやより大きなデータセットで改善を続けている。
論文 参考訳(メタデータ) (2023-04-30T04:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。