論文の概要: FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation
- arxiv url: http://arxiv.org/abs/2602.03130v1
- Date: Tue, 03 Feb 2026 05:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.265293
- Title: FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation
- Title(参考訳): FinMTM:ファイナンシャル推論とエージェント評価のためのマルチターンマルチモーダルベンチマーク
- Authors: Chenxi Zhang, Ziliang Gan, Liyun Zhu, Youwei Pang, Qing Zhang, Rongjunchen Zhang,
- Abstract要約: FinMTMはマルチターンマルチモーダルベンチマークであり、データ次元とタスク次元の両方に沿って多様性を拡張する。
データ側では、財務状況を基礎とした11,133のバイリンガル(中国語と英語)財務QAペアをキュレートし、注釈付けします。
タスク側では、FinMTMはシングルチョイスと複数チョイスの質問、複数ターンのオープンエンド対話、エージェントベースのタスクをカバーしている。
- 参考スコア(独自算出の注目度): 15.654001393123403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The financial domain poses substantial challenges for vision-language models (VLMs) due to specialized chart formats and knowledge-intensive reasoning requirements. However, existing financial benchmarks are largely single-turn and rely on a narrow set of question formats, limiting comprehensive evaluation in realistic application scenarios. To address this gap, we propose FinMTM, a multi-turn multimodal benchmark that expands diversity along both data and task dimensions. On the data side, we curate and annotate 11{,}133 bilingual (Chinese and English) financial QA pairs grounded in financial visuals, including candlestick charts, statistical plots, and report figures. On the task side, FinMTM covers single- and multiple-choice questions, multi-turn open-ended dialogues, and agent-based tasks. We further design task-specific evaluation protocols, including a set-overlap scoring rule for multiple-choice questions, a weighted combination of turn-level and session-level scores for multi-turn dialogues, and a composite metric that integrates planning quality with final outcomes for agent tasks. Extensive experimental evaluation of 22 VLMs reveal their limitations in fine-grained visual perception, long-context reasoning, and complex agent workflows.
- Abstract(参考訳): 金融分野は、専門的なチャート形式と知識集約的な推論要求のため、視覚言語モデル(VLM)に重大な課題を提起する。
しかし、既存の金融ベンチマークは、主にシングルターンであり、限定された質問フォーマットに依存しており、現実的なアプリケーションシナリオにおける包括的な評価を制限する。
このギャップに対処するために、データ次元とタスク次元の両方に沿って多様性を拡大するマルチターンマルチモーダルベンチマークであるFinMTMを提案する。
データ側では、ロウソクスティックチャート、統計プロット、レポートデータなど、財務的な視覚に根ざした11{,}133のバイリンガル(中国語と英語)の財務QAペアをキュレートし、注釈付けする。
タスク側では、FinMTMはシングルチョイスと複数チョイスの質問、複数ターンのオープンエンド対話、エージェントベースのタスクをカバーしている。
さらに,複数選択質問に対するセットオーバーラップスコアリングルール,複数ターン対話におけるターンレベルスコアとセッションレベルスコアの重み付け,エージェントタスクの最終的な結果と計画品質を統合する複合メトリックなど,タスク固有の評価プロトコルを設計する。
22個のVLMの広範にわたる実験的評価は、細粒度視覚知覚、長文推論、複雑なエージェントワークフローの限界を明らかにしている。
関連論文リスト
- FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。
プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。
2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文 参考訳(メタデータ) (2025-10-19T14:05:35Z) - FinMR: A Knowledge-Intensive Multimodal Benchmark for Advanced Financial Reasoning [10.985136487771364]
FinMRは専門アナリストの基準で専門家レベルの財務推論能力を評価するために設計された知識集約型マルチモーダルデータセットである。
これは15の金融分野において、3,200以上の厳格にキュレートされ、専門的に注釈付けされた質問応答ペアで構成されている。
FinMRは、専門的なアナリストレベルの能力に向け、マルチモーダルな財務推論を評価し、前進させるための重要なベンチマークツールとして、自らを確立している。
論文 参考訳(メタデータ) (2025-10-09T06:49:55Z) - FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging [12.897569424944107]
FinMMRは、金融数値推論タスクにおけるマルチモーダル大言語モデル(MLLM)の推論能力を評価するために設計された、新しいバイリンガルベンチマークである。
FinMMRは、テーブル、バーチャート、オーナシップ構造チャートを含む14のカテゴリにまたがる4.3Kの質問と8.7Kのイメージで構成されている。
論文 参考訳(メタデータ) (2025-08-06T16:51:09Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model [21.702901343472558]
MLLM(Multimodal Large Language Models)は、LLM(Large Language Models)の成長とともに急速に発展してきた。
本稿では, CFBenchmark-MMについて紹介する。CFBenchmark-MMは, テーブル, ヒストグラムチャート, ラインチャート, パイチャート, 構造図を含む9000以上の画像検索ペアを持つ中国のマルチモーダル・ファイナンス・ベンチマークである。
我々は、段階的に異なる視覚コンテンツを提供することで、マルチモーダル情報を扱う際のMLLMを評価するための段階的評価システムを開発した。
論文 参考訳(メタデータ) (2025-06-16T02:52:44Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。