論文の概要: When Tables Go Crazy: Evaluating Multimodal Models on French Financial Documents
- arxiv url: http://arxiv.org/abs/2602.10384v1
- Date: Wed, 11 Feb 2026 00:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.350645
- Title: When Tables Go Crazy: Evaluating Multimodal Models on French Financial Documents
- Title(参考訳): テーブルがクレージーな時-フランスの金融文書のマルチモーダルモデルの評価
- Authors: Virginie Mouilleron, Théo Lasnier, Djamé Seddah,
- Abstract要約: 視覚言語モデル(VLM)は、多くの文書理解タスクでよく機能するが、専門の非英語領域での信頼性は未定である。
本稿では、フランスの財務文書理解を評価するための最初のマルチモーダルベンチマークであるMultimodal Finance Evalを紹介する。
データセットには、テキスト抽出、テーブル理解、チャート解釈、マルチターン会話推論にまたがる1,204のエキスパート検証された質問が含まれている。
- 参考スコア(独自算出の注目度): 3.4992819560032267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) perform well on many document understanding tasks, yet their reliability in specialized, non-English domains remains underexplored. This gap is especially critical in finance, where documents mix dense regulatory text, numerical tables, and visual charts, and where extraction errors can have real-world consequences. We introduce Multimodal Finance Eval, the first multimodal benchmark for evaluating French financial document understanding. The dataset contains 1,204 expert-validated questions spanning text extraction, table comprehension, chart interpretation, and multi-turn conversational reasoning, drawn from real investment prospectuses, KIDs, and PRIIPs. We evaluate six open-weight VLMs (8B-124B parameters) using an LLM-as-judge protocol. While models achieve strong performance on text and table tasks (85-90% accuracy), they struggle with chart interpretation (34-62%). Most notably, multi-turn dialogue reveals a sharp failure mode: early mistakes propagate across turns, driving accuracy down to roughly 50% regardless of model size. These results show that current VLMs are effective for well-defined extraction tasks but remain brittle in interactive, multi-step financial analysis. Multimodal Finance Eval offers a challenging benchmark to measure and drive progress in this high-stakes setting.
- Abstract(参考訳): 視覚言語モデル(VLM)は、多くの文書理解タスクでよく機能するが、専門の非英語領域での信頼性は未定である。
このギャップは特に金融において重要であり、文書は密集した規制文書、数値表、およびビジュアルチャートを混合し、抽出エラーが実際の結果をもたらす可能性がある。
本稿では、フランスの財務文書理解を評価するための最初のマルチモーダルベンチマークであるMultimodal Finance Evalを紹介する。
このデータセットには、テキスト抽出、テーブル理解、チャート解釈、および実際の投資先、KID、PRIIPから引き出されたマルチターン会話推論を含む1,204のエキスパート検証された質問が含まれている。
LLM-as-judgeプロトコルを用いて6つのオープンウェイトVLM(8B-124Bパラメータ)を評価する。
モデルはテキストタスクやテーブルタスク(85~90%の精度)で高いパフォーマンスを達成するが、チャート解釈(34~62%)に苦しむ。
初期のミスはターンを越えて伝播し、モデルのサイズに関係なく精度を約50%まで下げる。
これらの結果から,現在のVLMは適切に定義された抽出作業には有効であるが,対話型多段階財務分析では脆弱であることがわかった。
マルチモーダルファイナンスEvalは、このハイテイク環境での進捗を測り、推し進めるための挑戦的なベンチマークを提供する。
関連論文リスト
- XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning [28.967959142733903]
金融問題の解決における大規模言語モデルの能力を評価するための新しいベンチマークであるXFinBenchを紹介する。
O1は67.3%の精度で最高性能のテキストのみのモデルであるが、それでも12.5%の人間専門家にはかなり遅れている。
我々は,知識増強分析のための3,032の財務用語を持つ知識銀行を構築し,関連する知識が小さなオープンソースモデルに一貫した精度の向上をもたらすことを発見した。
論文 参考訳(メタデータ) (2025-08-20T15:23:35Z) - MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。
財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。
21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-06-16T22:01:49Z) - CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model [21.702901343472558]
MLLM(Multimodal Large Language Models)は、LLM(Large Language Models)の成長とともに急速に発展してきた。
本稿では, CFBenchmark-MMについて紹介する。CFBenchmark-MMは, テーブル, ヒストグラムチャート, ラインチャート, パイチャート, 構造図を含む9000以上の画像検索ペアを持つ中国のマルチモーダル・ファイナンス・ベンチマークである。
我々は、段階的に異なる視覚コンテンツを提供することで、マルチモーダル情報を扱う際のMLLMを評価するための段階的評価システムを開発した。
論文 参考訳(メタデータ) (2025-06-16T02:52:44Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - Model-Agnostic Meta-Learning for Natural Language Understanding Tasks in
Finance [1.863067234952186]
低リソースの財務NLUタスクにおけるモデルに依存しないメタラーニングアルゴリズム(MAML)について検討する。
実験結果に基づき,本モデルによる最先端の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-06T02:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。