Fugu-MT 論文翻訳(概要): MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning

論文の概要: MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning

arxiv url: http://arxiv.org/abs/2411.03314v1
Date: Tue, 05 Nov 2024 18:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.708699
Title: MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning
Title（参考訳）: MME-Finance: エキスパートレベルの理解と推論のためのマルチモーダルファイナンスベンチマーク
Authors: Ziliang Gan, Yu Lu, Dong Zhang, Haohan Li, Che Liu, Jian Liu, Ji Liu, Haipang Wu, Chaoyou Fu, Zenglin Xu, Rongjunchen Zhang, Yong Dai,
Abstract要約: 本稿では,VQA(Visual Question Answering)ベンチマークであるMME-Financeを提案する。このベンチマークの特徴は財務と専門知識であり、実際のユーザのニーズを反映したチャートの構築を含む。また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。
参考スコア（独自算出の注目度）: 42.80085792749683
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, multimodal benchmarks for general domains have guided the rapid development of multimodal models on general tasks. However, the financial field has its peculiarities. It features unique graphical images (e.g., candlestick charts, technical indicator charts) and possesses a wealth of specialized financial knowledge (e.g., futures, turnover rate). Therefore, benchmarks from general fields often fail to measure the performance of multimodal models in the financial domain, and thus cannot effectively guide the rapid development of large financial models. To promote the development of large financial multimodal models, we propose MME-Finance, an bilingual open-ended and practical usage-oriented Visual Question Answering (VQA) benchmark. The characteristics of our benchmark are finance and expertise, which include constructing charts that reflect the actual usage needs of users (e.g., computer screenshots and mobile photography), creating questions according to the preferences in financial domain inquiries, and annotating questions by experts with 10+ years of experience in the financial industry. Additionally, we have developed a custom-designed financial evaluation system in which visual information is first introduced in the multi-modal evaluation process. Extensive experimental evaluations of 19 mainstream MLLMs are conducted to test their perception, reasoning, and cognition capabilities. The results indicate that models performing well on general benchmarks cannot do well on MME-Finance; for instance, the top-performing open-source and closed-source models obtain 65.69 (Qwen2VL-72B) and 63.18 (GPT-4o), respectively. Their performance is particularly poor in categories most relevant to finance, such as candlestick charts and technical indicator charts. In addition, we propose a Chinese version, which helps compare performance of MLLMs under a Chinese context.
Abstract（参考訳）: 近年、一般領域のマルチモーダルベンチマークは、一般的なタスクにおけるマルチモーダルモデルの急速な開発を導いている。しかし、金融分野には特異点がある。ユニークなグラフィカルなイメージ(例:キャンドルスティックチャート、テクニカルインジケータチャート)と、豊富な専門的な財務知識(例:未来、回転率)を備えている。したがって、金融分野におけるマルチモーダルモデルの性能を測ることに失敗することが多く、大規模な金融モデルの急速な発展を効果的に導くことはできない。大規模金融マルチモーダルモデルの開発を促進するため,バイリンガルなオープンエンドのビジュアル質問応答(VQA)ベンチマークであるMME-Financeを提案する。このベンチマークの特徴は,ユーザの実際の使用状況(例えば,コンピュータスクリーンショットやモバイル写真など)を反映したチャートの構築,金融分野の好みに応じた質問の作成,金融業界で10年以上の経験を持つ専門家による質問の注釈作成など,金融と専門知識である。さらに,マルチモーダル評価プロセスにおいて視覚情報を最初に導入する,カスタム設計の財務評価システムを開発した。 19種類のMLLMの総合的評価を行い,その知覚,推論,認知能力について検討した。その結果、MME-Financeでは、一般的なベンチマークでよく動作するモデルはうまく動作せず、例えば、最高性能のオープンソースモデルとクローズドソースモデルはそれぞれ65.69(Qwen2VL-72B)と63.18(GPT-4o)を得ることがわかった。特にロウソクスティックチャートやテクニカルインジケータチャートなど、金融に最も関係のあるカテゴリではパフォーマンスが劣っている。また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。

関連論文リスト

UniFinEval: Towards Unified Evaluation of Financial Multimodal Models across Text, Images and Videos [22.530796761115766]
我々は、情報密度の高い金融環境のための最初の統合マルチモーダルベンチマークUniFinEvalを提案する。 UniFinEvalは、現実世界の金融システムに根ざした5つの中核的な金融シナリオを体系的に構築する。 Gemini-3-pro-previewは、全体的なパフォーマンスは最高だが、財務の専門家と比べて大きな差がある。
論文参考訳（メタデータ） (2026-01-09T10:15:32Z)
FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。 2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文参考訳（メタデータ） (2025-10-19T14:05:35Z)
FinMR: A Knowledge-Intensive Multimodal Benchmark for Advanced Financial Reasoning [10.985136487771364]
FinMRは専門アナリストの基準で専門家レベルの財務推論能力を評価するために設計された知識集約型マルチモーダルデータセットである。これは15の金融分野において、3,200以上の厳格にキュレートされ、専門的に注釈付けされた質問応答ペアで構成されている。 FinMRは、専門的なアナリストレベルの能力に向け、マルチモーダルな財務推論を評価し、前進させるための重要なベンチマークツールとして、自らを確立している。
論文参考訳（メタデータ） (2025-10-09T06:49:55Z)
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文参考訳（メタデータ） (2025-10-07T20:06:15Z)
Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。われわれのモデルは、主要な金融指標を総合的に評価している。
論文参考訳（メタデータ） (2025-07-22T17:52:16Z)
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.73542209537148]
MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
論文参考訳（メタデータ） (2025-06-16T22:01:49Z)
CFBenchmark-MM: Chinese Financial Assistant Benchmark for Multimodal Large Language Model [21.702901343472558]
MLLM(Multimodal Large Language Models)は、LLM(Large Language Models)の成長とともに急速に発展してきた。本稿では, CFBenchmark-MMについて紹介する。CFBenchmark-MMは, テーブル, ヒストグラムチャート, ラインチャート, パイチャート, 構造図を含む9000以上の画像検索ペアを持つ中国のマルチモーダル・ファイナンス・ベンチマークである。我々は、段階的に異なる視覚コンテンツを提供することで、マルチモーダル情報を扱う際のMLLMを評価するための段階的評価システムを開発した。
論文参考訳（メタデータ） (2025-06-16T02:52:44Z)
FinS-Pilot: A Benchmark for Online Financial System [17.65500174763836]
FinS-Pilotは、オンライン金融アプリケーションで大規模言語モデル(RAG)を評価するための新しいベンチマークである。当社のベンチマークでは,インテント分類フレームワークによって編成されたリアルタイムAPIデータと構造化テキストソースの両方を取り入れている。本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。
論文参考訳（メタデータ） (2025-05-31T03:50:19Z)
FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。 FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文参考訳（メタデータ） (2025-02-26T05:19:16Z)
FinMTEB: Finance Massive Text Embedding Benchmark [18.990655668481075]
金融分野向けに設計されたMTEBに特化して開発されたFinMTEB(FinMTEB)について紹介する。 FinMTEBは、7つのタスクにまたがる64の金融ドメイン固有の埋め込みデータセットで構成されている。 1)汎用ベンチマークのパフォーマンスは,金融ドメインタスクとの相関が限定されていること,(2)ドメイン適応モデルの方が汎用タスクより一貫して優れていること,(3)意外なことに,単純なBag-of-Wordsアプローチは,金融セマンティックテクスチャ類似タスクにおける高度に密着した埋め込みよりも優れていること,の3つの重要な結果を示す。
論文参考訳（メタデータ） (2025-02-16T04:23:52Z)
FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering [22.245216871611678]
FAMMAは、金融マルチ言語によるマルチモーダル質問応答のためのオープンソースのベンチマークである。大学教科書と試験から精巧に収集された質問応答ペアは1,758個ある。ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T15:41:26Z)
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文参考訳（メタデータ） (2024-08-20T16:15:28Z)
SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。 SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。 SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文参考訳（メタデータ） (2024-08-05T08:24:24Z)
CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文参考訳（メタデータ） (2024-07-02T14:34:36Z)
A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges [60.546677053091685]
大規模言語モデル(LLM)は金融分野における機械学習アプリケーションに新たな機会を開放した。我々は、従来のプラクティスを変革し、イノベーションを促進する可能性に焦点を当て、様々な金融業務におけるLLMの適用について検討する。本稿では,既存の文献を言語タスク,感情分析,財務時系列,財務推論,エージェントベースモデリング,その他の応用分野に分類するための調査を紹介する。
論文参考訳（メタデータ） (2024-06-15T16:11:35Z)
SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである 6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文参考訳（メタデータ） (2024-04-29T19:04:35Z)
DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。 DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2023-10-23T11:33:41Z)
FinVis-GPT: A Multimodal Large Language Model for Financial Chart Analysis [15.20897845057384]
FinVis-GPTは、財務チャート分析に特化して設計された、新しいマルチモーダル大言語モデル(LLM)である。提案されたFinVis-GPTは、金融分野におけるマルチモーダル LLM の利用の先駆的な取り組みである。
論文参考訳（メタデータ） (2023-07-31T07:44:15Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文参考訳（メタデータ） (2022-10-31T18:35:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。