論文の概要: FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol
- arxiv url: http://arxiv.org/abs/2603.24943v1
- Date: Thu, 26 Mar 2026 02:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.052944
- Title: FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol
- Title(参考訳): FinMCP-Bench: モデルコンテキストプロトコルによるリアルタイム金融ツールのためのLLMエージェントのベンチマーク
- Authors: Jie Zhu, Yimin Tian, Boyang Li, Kehao Wu, Zhongzhi Liang, Junhui Li, Xianyin Zhang, Lifan Guo, Feng Chen, Yong Liu, Chi Zhang,
- Abstract要約: FinMCP-Benchは、大規模言語モデル(LLM)を評価するためのベンチマークである。
65のリアルファイナンシャルMPPと3種類のサンプル、シングルツール、マルチツール、マルチターンが組み込まれており、タスクの複雑さの異なるレベルにわたるモデルの評価を可能にしている。
- 参考スコア(独自算出の注目度): 25.065258058016052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces \textbf{FinMCP-Bench}, a novel benchmark for evaluating large language models (LLMs) in solving real-world financial problems through tool invocation of financial model context protocols. FinMCP-Bench contains 613 samples spanning 10 main scenarios and 33 sub-scenarios, featuring both real and synthetic user queries to ensure diversity and authenticity. It incorporates 65 real financial MCPs and three types of samples, single tool, multi-tool, and multi-turn, allowing evaluation of models across different levels of task complexity. Using this benchmark, we systematically assess a range of mainstream LLMs and propose metrics that explicitly measure tool invocation accuracy and reasoning capabilities. FinMCP-Bench provides a standardized, practical, and challenging testbed for advancing research on financial LLM agents.
- Abstract(参考訳): 本稿では,金融モデルコンテキストプロトコルのツール呼び出しによる現実の金融問題の解決において,大規模言語モデル(LLM)を評価するための新しいベンチマークである,textbf{FinMCP-Bench}を紹介する。
FinMCP-Benchには10のシナリオと33のサブシナリオにまたがる613のサンプルが含まれている。
65のリアルファイナンシャルMPPと3種類のサンプル、シングルツール、マルチツール、マルチターンが組み込まれており、タスクの複雑さの異なるレベルにわたるモデルの評価を可能にしている。
本ベンチマークを用いて,多種多様なLLMを体系的に評価し,ツールの実行精度と推論能力を明確に測定する指標を提案する。
FinMCP-Benchは、金融LLMエージェントの研究を進めるための標準化され、実用的で、挑戦的なテストベッドを提供する。
関連論文リスト
- FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use [11.47696602663462]
FinToolBenchは、金融ツール学習エージェントの評価に特化した、世界初の実世界の実行可能なベンチマークである。
本稿では,2次実行の成功を超えて,金融クリティカルな側面におけるエージェントの評価を行う新しい評価フレームワークを提案する。
FATRは、安定とコンプライアンスを高めるための金融対応ツール検索および推論ベースラインである。
論文 参考訳(メタデータ) (2026-03-09T11:33:05Z) - The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems [54.12165004393043]
FinMMEval 2026は、財務的理解、推論、意思決定にまたがる3つの相互接続タスクを提供する。
このラボは、堅牢で透明でグローバルに包括的な金融AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-02-11T14:14:06Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - FinMTEB: Finance Massive Text Embedding Benchmark [12.949322198287417]
金融分野向けに設計されたMTEBに特化して開発されたFinMTEB(FinMTEB)について紹介する。
FinMTEBは、7つのタスクにまたがる64の金融ドメイン固有の埋め込みデータセットで構成されている。
1)汎用ベンチマークのパフォーマンスは,金融ドメインタスクとの相関が限定されていること,(2)ドメイン適応モデルの方が汎用タスクより一貫して優れていること,(3)意外なことに,単純なBag-of-Wordsアプローチは,金融セマンティックテクスチャ類似タスクにおける高度に密着した埋め込みよりも優れていること,の3つの重要な結果を示す。
論文 参考訳(メタデータ) (2025-02-16T04:23:52Z) - Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。
我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。
本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:36:04Z) - CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications [10.225210627594894]
IJCAI-2024 FinLLMの課題に対して,金融業務の3つの重要な領域におけるLLMの能力について検討した。
金融分類、財務文書要約、単一株式取引について検討する。
提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。
論文 参考訳(メタデータ) (2024-07-02T05:04:13Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。