論文の概要: FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation
- arxiv url: http://arxiv.org/abs/2512.24903v1
- Date: Wed, 31 Dec 2025 15:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.686379
- Title: FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation
- Title(参考訳): FinMMDocR:シナリオ認識、文書理解、マルチステップ計算による金融マルチモーダル推論のベンチマーク
- Authors: Zichen Tang, Haihong E, Rongjin Li, Jiacheng Liu, Linwei Jia, Zhuodi Hao, Zhongjun Yang, Yuanze Li, Haolin Tian, Xinyi Hu, Peizhi Zhao, Yuan Liu, Zhengyu Wang, Xianghe Wang, Yiling Huang, Xueyuan Lin, Ruofei Bai, Zijian Xie, Qian Huang, Ruining Cao, Haocheng Gao,
- Abstract要約: FinMMDocRは、マルチモーダル大言語モデル(MLLM)を実世界の財務数値推論で評価するための新しいベンチマークである。
既存のベンチマークと比較すると、我々の仕事は3つの大きな進歩をもたらしている。
- 参考スコア(独自算出の注目度): 27.697631967262662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce FinMMDocR, a novel bilingual multimodal benchmark for evaluating multimodal large language models (MLLMs) on real-world financial numerical reasoning. Compared to existing benchmarks, our work delivers three major advancements. (1) Scenario Awareness: 57.9% of 1,200 expert-annotated problems incorporate 12 types of implicit financial scenarios (e.g., Portfolio Management), challenging models to perform expert-level reasoning based on assumptions; (2) Document Understanding: 837 Chinese/English documents spanning 9 types (e.g., Company Research) average 50.8 pages with rich visual elements, significantly surpassing existing benchmarks in both breadth and depth of financial documents; (3) Multi-Step Computation: Problems demand 11-step reasoning on average (5.3 extraction + 5.7 calculation steps), with 65.0% requiring cross-page evidence (2.4 pages average). The best-performing MLLM achieves only 58.0% accuracy, and different retrieval-augmented generation (RAG) methods show significant performance variations on this task. We expect FinMMDocR to drive improvements in MLLMs and reasoning-enhanced methods on complex multimodal reasoning tasks in real-world scenarios.
- Abstract(参考訳): 我々はFinMMDocRを紹介した。FinMMDocRは、実世界の財務数値推論に基づいて、マルチモーダルな大規模言語モデル(MLLM)を評価するための新しいバイリンガルなマルチモーダルベンチマークである。
既存のベンチマークと比較すると、我々の仕事は3つの大きな進歩をもたらしている。
1) シナリオ認識: 1200名のうち57.9%は、暗黙的な金融シナリオ(例:ポートフォリオ管理)、前提に基づいて専門家レベルの推論を行うための挑戦モデル、(2) 文書理解: 9種(例:企業研究)の平均50.8ページを上回り、金融文書の幅と深さの両方で既存のベンチマークを大幅に上回る、(2) マルチステップ計算: 問題の平均11段階の推論を要求する(例:5.3抽出+5.7計算ステップ)、65.0%はクロスページ証拠を必要とする(平均2.4ページ)。
最高の性能のMLLMは58.0%の精度しか達成せず、異なる検索拡張生成法(RAG)は、このタスクに顕著な性能変化を示す。
我々は、FinMMDocRがMLLMの改良と、実世界のシナリオにおける複雑なマルチモーダル推論タスクにおける推論強化手法を推し進めることを期待している。
関連論文リスト
- FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging [12.897569424944107]
FinMMRは、金融数値推論タスクにおけるマルチモーダル大言語モデル(MLLM)の推論能力を評価するために設計された、新しいバイリンガルベンチマークである。
FinMMRは、テーブル、バーチャート、オーナシップ構造チャートを含む14のカテゴリにまたがる4.3Kの質問と8.7Kのイメージで構成されている。
論文 参考訳(メタデータ) (2025-08-06T16:51:09Z) - BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs [7.9458352414205295]
大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、財務、法律、医療といった重要な領域での信頼性の評価は依然として難しいままです。
BizFinBenchは、実世界の金融アプリケーションにおけるLSMの評価に特化して設計された最初のベンチマークである。
BizFinBenchは中国語で6,781の注釈付きクエリで構成されており、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがっている。
論文 参考訳(メタデータ) (2025-05-26T03:23:02Z) - FinMTEB: Finance Massive Text Embedding Benchmark [12.949322198287417]
金融分野向けに設計されたMTEBに特化して開発されたFinMTEB(FinMTEB)について紹介する。
FinMTEBは、7つのタスクにまたがる64の金融ドメイン固有の埋め込みデータセットで構成されている。
1)汎用ベンチマークのパフォーマンスは,金融ドメインタスクとの相関が限定されていること,(2)ドメイン適応モデルの方が汎用タスクより一貫して優れていること,(3)意外なことに,単純なBag-of-Wordsアプローチは,金融セマンティックテクスチャ類似タスクにおける高度に密着した埋め込みよりも優れていること,の3つの重要な結果を示す。
論文 参考訳(メタデータ) (2025-02-16T04:23:52Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。