Fugu-MT 論文翻訳(概要): BigFinanceBench: A Workflow-Grounded Benchmark for Financial-Research Agents

論文の概要: BigFinanceBench: A Workflow-Grounded Benchmark for Financial-Research Agents

arxiv url: http://arxiv.org/abs/2606.03829v1
Date: Tue, 02 Jun 2026 16:12:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:05.14546
Title: BigFinanceBench: A Workflow-Grounded Benchmark for Financial-Research Agents
Title（参考訳）: BigFinanceBench: 財務調査エージェントのためのワークフローのベンチマーク
Authors: Alex Wang, Georg Meinhardt, Jacob Katz, Joseph H. Kim, Pratyush K. Chaudhary, Chase Blagden, Eric Xu,
Abstract要約: BigFinanceBenchは、オープンエンドの粗悪な財務調査タスクの928項目のベンチマークである。導出を独立にチェック可能なステップに分解する。アナリストワークフロー全体にわたって、部分クレジット評価と障害のローカライズをサポートする。
参考スコア（独自算出の注目度）: 5.690389797295356
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Financial-research answers are decision-relevant only when another analyst can audit how they were produced: which source was chosen, which period and accounting definition were used, which assumptions were made, and how the calculation was performed. Existing finance benchmarks largely evaluate isolated subskills or final answers, leaving the auditable derivation itself under-measured. We introduce BigFinanceBench, a 928-item expert-authored benchmark of open-ended financial-research tasks in which each item pairs a ground-truth reference answer with a point-weighted rubric that decomposes the derivation into independently checkable steps. BigFinanceBench is workflow-grounded in that it evaluates the full derivation rather than only the final output. Across 36,241 rubric points, the benchmark supports partial-credit evaluation and localization of failures across the analyst workflow. Evaluating ten current frontier and open-weight agents, we find substantial headroom: the best system reaches only 58.8% rubric score, final-answer accuracy is a useful but lossy proxy for derivation quality, and model capability varies non-uniformly across financial workflows.
Abstract（参考訳）: ファイナンシャル・リサーチの回答は、どのソースが選択されたか、どの期間と会計定義が使われたか、どの仮定が実行されたか、どのように計算されたか、など、他のアナリストがどのように作成されたかを確認する場合にのみ、決定に関連がある。既存の金融ベンチマークは、主に独立したサブスキルまたは最終回答を評価し、監査可能な派生そのものを過小評価している。 BigFinanceBenchは、928itemの専門家が作成したオープンエンドの財務調査タスクのベンチマークで、各項目が、解法を独立にチェック可能なステップに分解するポイント重み付きルーリックと、基底トラスト参照応答をペアリングする。 BigFinanceBenchはワークフローを基盤として、最終的な出力だけでなく、完全な導出を評価する。 36,241のルーブリックポイントにわたって、このベンチマークはアナリストワークフロー全体の部分クレジット評価と障害のローカライゼーションをサポートしている。最適なシステムは58.8%のルーリックスコアにしか達せず、最終回答精度は導出品質の指標として有用だが損失が大きい。

関連論文リスト

Hedge-Bench: Benchmarking Agents on Hard, Realistic Tasks Pertaining to Financial Reasoning [0.13999481573773073]
Hedge-Bench 1.0は、プロのヘッジファンドアナリストの明確な理由に基づく102件の実際の業務のベンチマークである。 Frontier Model.com/Trata-Inc/trata-hedge-benchでデータセットと評価ハーネスを公開する。
論文参考訳（メタデータ） (2026-06-02T17:11:56Z)
WorkstreamBench: Evaluating LLM Agents on End-to-End Spreadsheet Tasks in Finance [4.787072076364137]
フロンティアAIラボは、スプレッドシート全体をスクラッチから構築できるエージェントを開発した。これは金融において特に重要であり、金融モデリング、予測、シナリオ分析といった中核がスプレッドシートを通じて一般的に行われている。既存のスプレッドシートベンチマークでは、この高度な能力は測定されず、代わりに質問回答や単一形式の編集に重点を置いている。
論文参考訳（メタデータ） (2026-05-21T16:06:34Z)
Herculean: An Agentic Benchmark for Financial Intelligence [114.33879935277217]
代表的な4つのスキルセットにまたがるエージェント金融インテリジェンスのための最初の熟練したベンチマークであるHerculeanを紹介します。フェデラーエージェント全体では、TradingやMarket Insightsではエージェントが比較的うまく機能するが、HedgingやAuditingではかなり苦労している。全体としては、財務的推論を信頼性のあるワークフロー実行に変換する上で、現在のエージェントに重要なギャップがあることを示している。
論文参考訳（メタデータ） (2026-05-14T04:30:49Z)
Evaluating LLMs in Finance Requires Explicit Bias Consideration [88.38155218924999]
ファイナンス固有のバイアスは、パフォーマンスを低下させ、バックテストを汚染し、報告された結果をデプロイメントのクレームに役に立たないものにする。一つのバイアスが28%以上の研究で議論されることはない。本稿では,バイアス診断と将来のシステム設計のための最小限の要件を満たす構造的妥当性フレームワークと評価チェックリストを提案する。
論文参考訳（メタデータ） (2026-02-15T17:02:01Z)
PRBench: Large-Scale Expert Rubrics for Evaluating High-Stakes Professional Reasoning [18.32501228579171]
Professional Reasoning Bench (PRBench) は、ファイナンス・アンド・ローにおける現実的な問題の現実的で、オープンで、困難なベンチマークである。私たちは1,100人の専門家によるタスクと19,356人の専門家による基準をオープンソース化しました。
論文参考訳（メタデータ） (2025-11-14T18:55:12Z)
FinReflectKG - EvalBench: Benchmarking Financial KG with Multi-Dimensional Evaluation [0.0]
FinReflectKG - EvalBenchは金融知識グラフのベンチマークおよび評価フレームワークである。監査済みのトリプルをS&P 100ファイルのソースチャンクにリンクし、シングルパス、マルチパス、リフレクションエージェントベースの抽出モードをサポートする。以上の結果から,LLM-as-Judgeプロトコルは,明示的なバイアス制御を備えると,人間のアノテーションに代わる信頼性とコスト効率のよい代替手段となることが示唆された。
論文参考訳（メタデータ） (2025-10-07T09:22:48Z)
FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-08-07T22:15:22Z)
FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。 FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文参考訳（メタデータ） (2025-05-18T11:47:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。