論文の概要: FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2505.24714v1
- Date: Fri, 30 May 2025 15:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.040907
- Title: FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
- Title(参考訳): FinMME:金融マルチモーダル推論評価のためのベンチマークデータセット
- Authors: Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo,
- Abstract要約: FinMMEは金融分野におけるMLLMのマルチモーダル評価データセットである。
18の金融ドメインと6つの資産クラスで11,000以上の高品質な金融調査サンプルをカバーしている。
FinScoreは幻覚の罰則と多次元能力評価を取り入れた評価システムである。
- 参考スコア(独自算出の注目度): 18.10258654730729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have experienced rapid development in recent years. However, in the financial domain, there is a notable lack of effective and specialized multimodal evaluation datasets. To advance the development of MLLMs in the finance domain, we introduce FinMME, encompassing more than 11,000 high-quality financial research samples across 18 financial domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We ensure data quality through 20 annotators and carefully designed validation mechanisms. Additionally, we develop FinScore, an evaluation system incorporating hallucination penalties and multi-dimensional capability assessment to provide an unbiased evaluation. Extensive experimental results demonstrate that even state-of-the-art models like GPT-4o exhibit unsatisfactory performance on FinMME, highlighting its challenging nature. The benchmark exhibits high robustness with prediction variations under different prompts remaining below 1%, demonstrating superior reliability compared to existing datasets. Our dataset and evaluation protocol are available at https://huggingface.co/datasets/luojunyu/FinMME and https://github.com/luo-junyu/FinMME.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年,急速な発展を遂げている。
しかし、金融分野では、効果的で専門的なマルチモーダル評価データセットが欠落している。
金融分野におけるMLLMの開発を進めるため,金融分野18と資産クラス6にまたがる11,000以上の高品質な金融調査サンプルを含むFinMMEを導入し,10のチャートタイプと21のサブタイプを特徴とする。
20のアノテータと慎重に設計されたバリデーションメカニズムを通じて、データ品質を保証します。
さらに,幻覚的ペナルティと多次元能力評価を組み込んだ評価システムであるFinScoreを開発し,バイアスのない評価を行う。
GPT-4oのような最先端モデルでさえFinMMEに不満足な性能を示し、その難しさを浮き彫りにした。
このベンチマークは、1%未満の異なるプロンプト下での予測変動による高い堅牢性を示し、既存のデータセットよりも優れた信頼性を示している。
データセットと評価プロトコルはhttps://huggingface.co/datasets/luojunyu/FinMMEとhttps://github.com/luo-junyu/FinMMEで利用可能です。
関連論文リスト
- FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning [42.80085792749683]
本稿では,VQA(Visual Question Answering)ベンチマークであるMME-Financeを提案する。
このベンチマークの特徴は財務と専門知識であり、実際のユーザのニーズを反映したチャートの構築を含む。
また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。
論文 参考訳(メタデータ) (2024-11-05T18:59:51Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。