Fugu-MT 論文翻訳(概要): FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

論文の概要: FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

arxiv url: http://arxiv.org/abs/2505.24714v1
Date: Fri, 30 May 2025 15:36:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:53.040907
Title: FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
Title（参考訳）: FinMME:金融マルチモーダル推論評価のためのベンチマークデータセット
Authors: Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo,
Abstract要約: FinMMEは金融分野におけるMLLMのマルチモーダル評価データセットである。 18の金融ドメインと6つの資産クラスで11,000以上の高品質な金融調査サンプルをカバーしている。 FinScoreは幻覚の罰則と多次元能力評価を取り入れた評価システムである。
参考スコア（独自算出の注目度）: 18.10258654730729
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have experienced rapid development in recent years. However, in the financial domain, there is a notable lack of effective and specialized multimodal evaluation datasets. To advance the development of MLLMs in the finance domain, we introduce FinMME, encompassing more than 11,000 high-quality financial research samples across 18 financial domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We ensure data quality through 20 annotators and carefully designed validation mechanisms. Additionally, we develop FinScore, an evaluation system incorporating hallucination penalties and multi-dimensional capability assessment to provide an unbiased evaluation. Extensive experimental results demonstrate that even state-of-the-art models like GPT-4o exhibit unsatisfactory performance on FinMME, highlighting its challenging nature. The benchmark exhibits high robustness with prediction variations under different prompts remaining below 1%, demonstrating superior reliability compared to existing datasets. Our dataset and evaluation protocol are available at https://huggingface.co/datasets/luojunyu/FinMME and https://github.com/luo-junyu/FinMME.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は近年,急速な発展を遂げている。しかし、金融分野では、効果的で専門的なマルチモーダル評価データセットが欠落している。金融分野におけるMLLMの開発を進めるため,金融分野18と資産クラス6にまたがる11,000以上の高品質な金融調査サンプルを含むFinMMEを導入し,10のチャートタイプと21のサブタイプを特徴とする。 20のアノテータと慎重に設計されたバリデーションメカニズムを通じて、データ品質を保証します。さらに,幻覚的ペナルティと多次元能力評価を組み込んだ評価システムであるFinScoreを開発し,バイアスのない評価を行う。 GPT-4oのような最先端モデルでさえFinMMEに不満足な性能を示し、その難しさを浮き彫りにした。このベンチマークは、1%未満の異なるプロンプト下での予測変動による高い堅牢性を示し、既存のデータセットよりも優れた信頼性を示している。データセットと評価プロトコルはhttps://huggingface.co/datasets/luojunyu/FinMMEとhttps://github.com/luo-junyu/FinMMEで利用可能です。

関連論文リスト

FinForge: Semi-Synthetic Financial Benchmark Generation [4.3298251304921775]
FinForgeは、金融特化評価ベンチマークを構築するための、スケーラブルで半合成的なパイプラインである。我々はFinForge-5kというベンチマークを作成した。これは11のファイナンスにまたがる5000以上の質問応答対からなるベンチマークベンチマークである。 FinForge-5kは金銭的推論に大きな違いを示し、主要なモデルは80%近い精度で達成されている。
論文参考訳（メタデータ） (2026-01-11T01:38:33Z)
UniFinEval: Towards Unified Evaluation of Financial Multimodal Models across Text, Images and Videos [22.530796761115766]
我々は、情報密度の高い金融環境のための最初の統合マルチモーダルベンチマークUniFinEvalを提案する。 UniFinEvalは、現実世界の金融システムに根ざした5つの中核的な金融シナリオを体系的に構築する。 Gemini-3-pro-previewは、全体的なパフォーマンスは最高だが、財務の専門家と比べて大きな差がある。
論文参考訳（メタデータ） (2026-01-09T10:15:32Z)
FinWorld: An All-in-One Open-Source Platform for End-to-End Financial AI Research and Deployment [33.436388581893944]
FinWorldは、財務AIワークフロー全体に対するエンドツーエンドのサポートを提供する、オールインワンのオープンソースプラットフォームである。 4つの主要な金融AIタスクに関する総合的な実験を行います。
論文参考訳（メタデータ） (2025-08-04T11:02:34Z)
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [82.7292329605713]
FinChainは、ファイナンスにおける検証可能なChain-of-Thought評価のために特別に設計された最初のベンチマークである。 12の金融ドメインに58のトピックがあり、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースで表現されている。 FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。
論文参考訳（メタデータ） (2025-06-03T06:44:42Z)
FinS-Pilot: A Benchmark for Online Financial System [17.65500174763836]
FinS-Pilotは、オンライン金融アプリケーションで大規模言語モデル(RAG)を評価するための新しいベンチマークである。当社のベンチマークでは,インテント分類フレームワークによって編成されたリアルタイムAPIデータと構造化テキストソースの両方を取り入れている。本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。
論文参考訳（メタデータ） (2025-05-31T03:50:19Z)
FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。 FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文参考訳（メタデータ） (2025-02-26T05:19:16Z)
Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文参考訳（メタデータ） (2024-11-25T13:20:19Z)
MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning [42.80085792749683]
本稿では,VQA(Visual Question Answering)ベンチマークであるMME-Financeを提案する。このベンチマークの特徴は財務と専門知識であり、実際のユーザのニーズを反映したチャートの構築を含む。また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。
論文参考訳（メタデータ） (2024-11-05T18:59:51Z)
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。 FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文参考訳（メタデータ） (2024-08-20T16:15:28Z)
SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。 SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。 SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文参考訳（メタデータ） (2024-08-05T08:24:24Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。