Fugu-MT 論文翻訳(概要): Deep FinResearch Bench: Evaluating AI's Ability to Conduct Professional Financial Investment Research

論文の概要: Deep FinResearch Bench: Evaluating AI's Ability to Conduct Professional Financial Investment Research

arxiv url: http://arxiv.org/abs/2604.21006v1
Date: Wed, 22 Apr 2026 18:53:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.13656
Title: Deep FinResearch Bench: Evaluating AI's Ability to Conduct Professional Financial Investment Research
Title（参考訳）: Deep FinResearch Bench: 専門的な金融投資研究を行うAIの能力を評価する
Authors: Mirazul Haque, Antony Papadimitriou, Samuel Mensah, Zhiqiang Ma, Zhijin Guo, Joy Prakash Sain, Simerjot Kaur, Charese Smiley, Xiaomo Liu,
Abstract要約: Deep FinResearch Benchは、金融投資研究におけるDeep Research(DR)エージェントの実践的で包括的な評価フレームワークである。このベンチマークは、質的な厳密さ、定量的な予測と評価の正確さ、クレームの信頼性と妥当性の3つの側面を評価する。このベンチマークをフロンティアDRエージェントの財務報告に適用し、金融専門家が作成した報告書と比較すると、AI生成レポートは依然として不足していることがわかる。
参考スコア（独自算出の注目度）: 15.624350049353188
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Deep FinResearch Bench, a practical and comprehensive evaluation framework for deep research (DR) agents in financial investment research. The benchmark assesses three dimensions of report quality: qualitative rigor, quantitative forecasting and valuation accuracy, and claim credibility and verifiability. Particularly, we define corresponding qualitative and quantitative evaluation metrics and implement an automated scoring procedure to enable scalable assessment. Applying the benchmark to financial reports from frontier DR agents and comparing them with reports authored by financial professionals, we find that AI-generated reports still fall short across these dimensions. These findings underscore the need for domain-specialized DR agents tailored to finance, and we hope the work establishes a foundation for standardized benchmarking of DR agents in financial research.
Abstract（参考訳）: 本稿では、金融投資研究におけるディープ・フィンリサーチ・ベンチ(Deep FinResearch Bench)について紹介する。このベンチマークは、質的な厳密さ、定量的な予測と評価の正確さ、クレームの信頼性と妥当性の3つの側面を評価する。特に,対応する質的,定量的な評価指標を定義し,スケーラブルな評価を実現するための自動スコアリング手法を実装した。このベンチマークをフロンティアDRエージェントの財務報告に適用し、金融専門家が作成した報告書と比較すると、AI生成レポートはこれらの範囲ではまだ不足していることがわかる。これらの知見は、金融に適合したドメイン特化DRエージェントの必要性を浮き彫りにしており、金融研究におけるDRエージェントの標準化ベンチマークのための基盤を確立することを願っている。

関連論文リスト

FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis [110.5695516127813]
HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。 FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。 6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
論文参考訳（メタデータ） (2025-10-15T17:21:56Z)
FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-07T22:15:22Z)
Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。われわれのモデルは、主要な金融指標を総合的に評価している。
論文参考訳（メタデータ） (2025-07-22T17:52:16Z)
FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [65.04104723843264]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。 FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文参考訳（メタデータ） (2025-04-22T11:30:13Z)
Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-11T10:36:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。