論文の概要: FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents
- arxiv url: http://arxiv.org/abs/2603.04403v1
- Date: Fri, 02 Jan 2026 17:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.176526
- Title: FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents
- Title(参考訳): FinRetrieval: AIエージェントによる財務データ検索のベンチマーク
- Authors: Eric Y. Kim, Jie Huang,
- Abstract要約: FinRetrievalは、ファイナンシャル検索に関する500の質問と、根拠となる真実の回答のベンチマークである。
Claude Opusは構造化データAPIで90.8%の精度を達成しているが、Web検索だけでは19.8%に過ぎない。
- 参考スコア(独自算出の注目度): 3.5621895565039203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents increasingly assist with financial research, yet no benchmark evaluates their ability to retrieve specific numeric values from structured databases. We introduce FinRetrieval, a benchmark of 500 financial retrieval questions with ground truth answers, agent responses from 14 configurations across three frontier providers (Anthropic, OpenAI, Google), and complete tool call execution traces. Our evaluation reveals that tool availability dominates performance: Claude Opus achieves 90.8% accuracy with structured data APIs but only 19.8% with web search alone--a 71 percentage point gap that exceeds other providers by 3-4x. We find that reasoning mode benefits vary inversely with base capability (+9.0pp for OpenAI vs +2.8pp for Claude), explained by differences in base-mode tool utilization rather than reasoning ability. Geographic performance gaps (5.6pp US advantage) stem from fiscal year naming conventions, not model limitations. We release the dataset, evaluation code, and tool traces to enable research on financial AI systems.
- Abstract(参考訳): AIエージェントは金融調査をますます支援するが、構造化データベースから特定の数値を検索する能力を評価するベンチマークは存在しない。
我々はFinRetrievalを紹介した。ファイナンシャル検索に関する500の質問のベンチマークと、真実の答え、Anthropic、OpenAI、Googleの3つのフロンティアプロバイダにわたる14のコンフィギュレーションからのエージェント応答、ツールコールの実行トレースの完全なリストである。
Claude Opusは構造化データAPIで90.8%の精度を達成しているが、Web検索だけでは19.8%しか達成していない。
推論モードの利点は、基本能力(OpenAIでは+9.0pp、Claudeでは+2.8pp)と逆転し、推論能力よりも基本モードツールの利用率の違いによって説明できる。
地理的なパフォーマンスのギャップ(アメリカの優位性は5.6pp)は、モデル制約ではなく、会計年度の命名規則に起因している。
金融AIシステムの研究を可能にするために、データセット、評価コード、ツールトレースをリリースする。
関連論文リスト
- RubberDuckBench: A Benchmark for AI Coding Assistants [5.198865387380684]
RubberDuckBench: コードに関する質問のベンチマークと、回答を評価するための詳細なルーリックを紹介します。
これらの疑問に答える上で,我々は20のLLM(プロパティおよびオープンソース)を多種多様なセットで評価する。
Grok 4 (69.29%)、Claude Opus 4 (68.5%)、GPT-5 (67.8%) は総合的に最高の成績を上げているが、次の9つの最高のパフォーマンスモデルよりも2倍の優位性を示すことはない。
論文 参考訳(メタデータ) (2026-01-23T05:28:48Z) - Can Deep Research Agents Find and Organize? Evaluating the Synthesis Gap with Expert Taxonomies [57.11324429385405]
72のコンピュータサイエンスサーベイから得られた診断ベンチマークであるTaxoBenchを紹介する。
我々は,3,815個の引用を根本的真理として正確に分類した分類木を手作業で抽出した。
ベストエージェントは、専門家が選択した論文の20.9%しかリコールせず、完璧なインプットであっても、最高のモデルは組織の0.31 ARIしか達成していない。
論文 参考訳(メタデータ) (2026-01-18T11:57:09Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning [110.57865233597762]
自己進化型エージェント推論システムであるAlphaApolloについて述べる。
基礎モデル(FM)における2つのボトルネックに対処することを目的としている。
AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
論文 参考訳(メタデータ) (2025-10-05T15:42:24Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs [7.9458352414205295]
大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、財務、法律、医療といった重要な領域での信頼性の評価は依然として難しいままです。
BizFinBenchは、実世界の金融アプリケーションにおけるLSMの評価に特化して設計された最初のベンチマークである。
BizFinBenchは中国語で6,781の注釈付きクエリで構成されており、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがっている。
論文 参考訳(メタデータ) (2025-05-26T03:23:02Z) - A Declarative System for Optimizing AI Workloads [14.302404377396837]
Palimpzestは、宣言型言語で定義することで、誰でもAIによる分析クエリを処理できるシステムである。
本稿では,AIを利用した分析タスクの作業負荷,Palimpzestが使用している最適化手法,プロトタイプシステム自体について述べる。
我々の単純なプロトタイプでさえ、ベースライン方式よりも3.3倍速く2.9倍安いものを含む、魅力的なプランを提供している。
論文 参考訳(メタデータ) (2024-05-23T15:31:18Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。