論文の概要: FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
- arxiv url: http://arxiv.org/abs/2603.08262v1
- Date: Mon, 09 Mar 2026 11:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.839644
- Title: FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use
- Title(参考訳): FinToolBench: リアルタイム金融ツール使用のためのLLMエージェントの評価
- Authors: Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun,
- Abstract要約: FinToolBenchは、金融ツール学習エージェントの評価に特化した、世界初の実世界の実行可能なベンチマークである。
本稿では,2次実行の成功を超えて,金融クリティカルな側面におけるエージェントの評価を行う新しい評価フレームワークを提案する。
FATRは、安定とコンプライアンスを高めるための金融対応ツール検索および推論ベースラインである。
- 参考スコア(独自算出の注目度): 11.47696602663462
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of Large Language Models (LLMs) into the financial domain is driving a paradigm shift from passive information retrieval to dynamic, agentic interaction. While general-purpose tool learning has witnessed a surge in benchmarks, the financial sector, characterized by high stakes, strict compliance, and rapid data volatility, remains critically underserved. Existing financial evaluations predominantly focus on static textual analysis or document-based QA, ignoring the complex reality of tool execution. Conversely, general tool benchmarks lack the domain-specific rigor required for finance, often relying on toy environments or a negligible number of financial APIs. To bridge this gap, we introduce FinToolBench, the first real-world, runnable benchmark dedicated to evaluating financial tool learning agents. Unlike prior works limited to a handful of mock tools, FinToolBench establishes a realistic ecosystem coupling 760 executable financial tools with 295 rigorous, tool-required queries. We propose a novel evaluation framework that goes beyond binary execution success, assessing agents on finance-critical dimensions: timeliness, intent type, and regulatory domain alignment. Furthermore, we present FATR, a finance-aware tool retrieval and reasoning baseline that enhances stability and compliance. By providing the first testbed for auditable, agentic financial execution, FinToolBench sets a new standard for trustworthy AI in finance. The tool manifest, execution environment, and evaluation code will be open-sourced to facilitate future research.
- Abstract(参考訳): 大規模言語モデル(LLM)の金融分野への統合は、受動的情報検索から動的エージェントインタラクションへのパラダイムシフトを推進している。
汎用ツール学習はベンチマークの急増を目撃しているが、高い利害、厳格なコンプライアンス、急激なデータのボラティリティを特徴とする金融セクターは、依然として批判的に守られていない。
既存の財務評価は主に静的テキスト分析や文書ベースのQAに重点を置いており、ツール実行の複雑な現実を無視している。
逆に、一般的なツールベンチマークには金融に必要なドメイン固有の厳密さがなく、しばしばおもちゃの環境や無視できる数の金融APIに依存している。
このギャップを埋めるために、FinToolBenchを紹介します。FinToolBenchは、金融ツール学習エージェントの評価に特化した、世界で最初の実行可能なベンチマークです。
FinToolBenchは、いくつかのモックツールに制限された以前の作業とは異なり、295の厳格なツール要求クエリと760の実行可能な金融ツールを結合する現実的なエコシステムを確立している。
本稿では,バイナリ実行の成功を超えて,スケジュール,インテントタイプ,規制ドメインアライメントといった金融クリティカルな側面のエージェントを評価する新しい評価フレームワークを提案する。
さらに、金融対応ツール検索および推論ベースラインであるFATRについて、安定性とコンプライアンスを高める。
監査可能なエージェントファイナンシャル実行のための最初のテストベッドを提供することで、FinToolBenchはファイナンスにおいて信頼できるAIの新しい標準を設定する。
ツールマニフェスト、実行環境、評価コードは、将来の研究を促進するためにオープンソース化される。
関連論文リスト
- FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。
プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。
2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文 参考訳(メタデータ) (2025-10-19T14:05:35Z) - Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - FinS-Pilot: A Benchmark for Online Financial RAG System [21.64301644235658]
FinS-Pilotはオンライン金融アプリケーションにおけるRAGシステム評価のための新しいベンチマークである。
我々のベンチマークでは、インテント分類フレームワークによって編成されたリアルタイムAPIデータとテキストデータの両方が組み込まれている。
本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとデータセットの両立に寄与する。
論文 参考訳(メタデータ) (2025-05-31T03:50:19Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - Measuring Consistency in Text-based Financial Forecasting Models [10.339586273664725]
FinTrustは財務文書の論理的一貫性を評価する評価ツールである。
金融予測のための最先端NLPモデルの整合性は乏しいことを示す。
意味保存による性能劣化の分析は,現在のテキストベースの手法が市場情報の堅牢な予測に適していないことを示唆している。
論文 参考訳(メタデータ) (2023-05-15T10:32:26Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。