Fugu-MT 論文翻訳(概要): Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset

論文の概要: Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset

arxiv url: http://arxiv.org/abs/2605.29462v1
Date: Thu, 28 May 2026 06:56:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:55.873553
Title: Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset
Title（参考訳）: CFMMEにおける大規模ビジョンランゲージモデルのベンチマーク:中国の総合的財務マルチモーダル評価データセット
Authors: Qian Chen, Xianyin Zhang, Yanzhi Liu, Lifan Guo, Feng Chen, Chi Zhang,
Abstract要約: 中国の金融マルチモーダル評価ベンチマークであるCFMMEを紹介する。 CFMMEは、基本的な学術知識から複雑な現実世界のアプリケーションまで、6,052のインスタンスで構成されている。その結果,質問応答タスクでは66.11%,検出,認識,情報抽出タスクでは平均スコア77.18が得られた。
参考スコア（独自算出の注目度）: 9.111817527919266
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of Large Vision-Language Models (LVLMs) has substantially expanded model capabilities beyond text-only understanding, enabling unified inference across both visual and textual modalities and supporting a broader range of real-world applications. To comprehensively evaluate the perception, understanding, reasoning, and cognition capabilities of LVLMs throughout the entire financial business workflow in Chinese contexts, we introduce CFMME, a novel Chinese financial multimodal evaluation benchmark. CFMME comprises 6,052 instances spanning from fundamental academic knowledge to complex real-world applications, covering eight primary financial image modalities and four core multimodal tasks. On CFMME, we conduct a thorough evaluation of representative LVLMs. The results show that the state-of-the-art model attains an overall accuracy of 66.11\% on the question answering task and an average score of 77.18 on the detection, recognition, and information extraction tasks, indicating substantial room for improvement in current LVLMs. In addition, we conduct detailed analyses of error causes, cross-modal capabilities, and multi-orientation settings, yielding valuable insights for future research. We hope that CFMME will spur further progress in LVLMs, especially by improving their performance on multiple multimodal tasks in the financial domain.
Abstract（参考訳）: LVLM(Large Vision-Language Models)の出現は、テキストのみの理解を超えて、モデル機能を大幅に拡張し、視覚とテキストの両モードの統一推論を可能にし、より広範囲の現実世界のアプリケーションをサポートする。中国における金融ビジネスのワークフロー全体を通して,LVLMの認識,理解,推論,認知能力を包括的に評価するために,中国における新たな金融マルチモーダル評価ベンチマークであるCFMMEを導入する。 CFMMEは、基本的な学術知識から複雑な実世界のアプリケーションにまたがる6,052のインスタンスで構成され、8つの主要な金融画像モダリティと4つのコアマルチモーダルタスクをカバーしている。 CFMMEでは,代表LVLMの徹底的な評価を行う。その結果、現状のモデルでは、質問応答タスクで66.11\%、検出、認識、情報抽出タスクで平均スコア77.18の総合精度が得られ、現在のLVLMの大幅な改善の余地があることが示唆された。さらに, エラー原因, クロスモーダル機能, マルチオリエンテーション設定の詳細な分析を行い, 今後の研究に有用な洞察を与える。 CFMMEがLVLMのさらなる進歩を加速し、特に金融分野における複数のマルチモーダルタスクの性能向上を期待する。

関連論文リスト

The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems [54.12165004393043]
FinMMEval 2026は、財務的理解、推論、意思決定にまたがる3つの相互接続タスクを提供する。このラボは、堅牢で透明でグローバルに包括的な金融AIシステムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2026-02-11T14:14:06Z)
FinMR: A Knowledge-Intensive Multimodal Benchmark for Advanced Financial Reasoning [10.985136487771364]
FinMRは専門アナリストの基準で専門家レベルの財務推論能力を評価するために設計された知識集約型マルチモーダルデータセットである。これは15の金融分野において、3,200以上の厳格にキュレートされ、専門的に注釈付けされた質問応答ペアで構成されている。 FinMRは、専門的なアナリストレベルの能力に向け、マルチモーダルな財務推論を評価し、前進させるための重要なベンチマークツールとして、自らを確立している。
論文参考訳（メタデータ） (2025-10-09T06:49:55Z)
MultiFinBen: Benchmarking Large Language Models for Multilingual and Multimodal Financial Application [118.63802040274999]
MultiFinBen は、現実的な財務状況下で LLM を評価するための、最初のエキスパートアノテーション付き多言語(5言語)およびマルチモーダルベンチマークである。財務理由付けテストは、書類やニュースと統合された言語間のエビデンスと、スキャンされた文書から構造化されたテキストを抽出する財務OCRである。 21個のLLMを評価したところ、GPT-4oのようなフロンティアのマルチモーダルモデルでさえ、視力とオーディオが強く、多言語設定では急激に低下するが、全体の46.01%しか達成していないことが示されている。
論文参考訳（メタデータ） (2025-06-16T22:01:49Z)
CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model [21.702901343472558]
MLLM(Multimodal Large Language Models)は、LLM(Large Language Models)の成長とともに急速に発展してきた。本稿では, CFBenchmark-MMについて紹介する。CFBenchmark-MMは, テーブル, ヒストグラムチャート, ラインチャート, パイチャート, 構造図を含む9000以上の画像検索ペアを持つ中国のマルチモーダル・ファイナンス・ベンチマークである。我々は、段階的に異なる視覚コンテンツを提供することで、マルチモーダル情報を扱う際のMLLMを評価するための段階的評価システムを開発した。
論文参考訳（メタデータ） (2025-06-16T02:52:44Z)
Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-11T10:36:04Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。 MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文参考訳（メタデータ） (2024-04-24T17:37:05Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models [31.961563103990432]
本稿では,LLMの金融分野の知識と実践能力を評価するためのベンチマークであるFinEvalについて述べる。データセットには、金融学術知識、金融産業知識、金融セキュリティ知識、金融エージェントの4つの重要な領域に分類される8,351の質問が含まれている。以上の結果から、Claude 3.5-Sonnetは、ゼロショット設定下において、すべての金融ドメインカテゴリで72.9の最大重み付き平均スコアを達成している。
論文参考訳（メタデータ） (2023-08-19T10:38:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。