論文の概要: MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2411.03314v1
- Date: Tue, 05 Nov 2024 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:31.156147
- Title: MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning
- Title(参考訳): MME-Finance: エキスパートレベルの理解と推論のためのマルチモーダルファイナンスベンチマーク
- Authors: Ziliang Gan, Yu Lu, Dong Zhang, Haohan Li, Che Liu, Jian Liu, Ji Liu, Haipang Wu, Chaoyou Fu, Zenglin Xu, Rongjunchen Zhang, Yong Dai,
- Abstract要約: 本稿では,VQA(Visual Question Answering)ベンチマークであるMME-Financeを提案する。
このベンチマークの特徴は財務と専門知識であり、実際のユーザのニーズを反映したチャートの構築を含む。
また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。
- 参考スコア(独自算出の注目度): 42.80085792749683
- License:
- Abstract: In recent years, multimodal benchmarks for general domains have guided the rapid development of multimodal models on general tasks. However, the financial field has its peculiarities. It features unique graphical images (e.g., candlestick charts, technical indicator charts) and possesses a wealth of specialized financial knowledge (e.g., futures, turnover rate). Therefore, benchmarks from general fields often fail to measure the performance of multimodal models in the financial domain, and thus cannot effectively guide the rapid development of large financial models. To promote the development of large financial multimodal models, we propose MME-Finance, an bilingual open-ended and practical usage-oriented Visual Question Answering (VQA) benchmark. The characteristics of our benchmark are finance and expertise, which include constructing charts that reflect the actual usage needs of users (e.g., computer screenshots and mobile photography), creating questions according to the preferences in financial domain inquiries, and annotating questions by experts with 10+ years of experience in the financial industry. Additionally, we have developed a custom-designed financial evaluation system in which visual information is first introduced in the multi-modal evaluation process. Extensive experimental evaluations of 19 mainstream MLLMs are conducted to test their perception, reasoning, and cognition capabilities. The results indicate that models performing well on general benchmarks cannot do well on MME-Finance; for instance, the top-performing open-source and closed-source models obtain 65.69 (Qwen2VL-72B) and 63.18 (GPT-4o), respectively. Their performance is particularly poor in categories most relevant to finance, such as candlestick charts and technical indicator charts. In addition, we propose a Chinese version, which helps compare performance of MLLMs under a Chinese context.
- Abstract(参考訳): 近年、一般領域のマルチモーダルベンチマークは、一般的なタスクにおけるマルチモーダルモデルの急速な開発を導いている。
しかし、金融分野には特異点がある。
ユニークなグラフィカルなイメージ(例:キャンドルスティックチャート、テクニカルインジケータチャート)と、豊富な専門的な財務知識(例:未来、回転率)を備えている。
したがって、金融分野におけるマルチモーダルモデルの性能を測ることに失敗することが多く、大規模な金融モデルの急速な発展を効果的に導くことはできない。
大規模金融マルチモーダルモデルの開発を促進するため,バイリンガルなオープンエンドのビジュアル質問応答(VQA)ベンチマークであるMME-Financeを提案する。
このベンチマークの特徴は,ユーザの実際の使用状況(例えば,コンピュータスクリーンショットやモバイル写真など)を反映したチャートの構築,金融分野の好みに応じた質問の作成,金融業界で10年以上の経験を持つ専門家による質問の注釈作成など,金融と専門知識である。
さらに,マルチモーダル評価プロセスにおいて視覚情報を最初に導入する,カスタム設計の財務評価システムを開発した。
19種類のMLLMの総合的評価を行い,その知覚,推論,認知能力について検討した。
その結果、MME-Financeでは、一般的なベンチマークでよく動作するモデルはうまく動作せず、例えば、最高性能のオープンソースモデルとクローズドソースモデルはそれぞれ65.69(Qwen2VL-72B)と63.18(GPT-4o)を得ることがわかった。
特にロウソクスティックチャートやテクニカルインジケータチャートなど、金融に最も関係のあるカテゴリではパフォーマンスが劣っている。
また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。
関連論文リスト
- FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering [22.245216871611678]
FAMMAは、金融マルチ言語によるマルチモーダル質問応答のためのオープンソースのベンチマークである。
大学教科書と試験から精巧に収集された質問応答ペアは1,758個ある。
ベンチマークの結果から,FAMMAがこれらのモデルにとって重要な課題であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T15:41:26Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges [60.546677053091685]
大規模言語モデル(LLM)は金融分野における機械学習アプリケーションに新たな機会を開放した。
我々は、従来のプラクティスを変革し、イノベーションを促進する可能性に焦点を当て、様々な金融業務におけるLLMの適用について検討する。
本稿では,既存の文献を言語タスク,感情分析,財務時系列,財務推論,エージェントベースモデリング,その他の応用分野に分類するための調査を紹介する。
論文 参考訳(メタデータ) (2024-06-15T16:11:35Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - FinVis-GPT: A Multimodal Large Language Model for Financial Chart
Analysis [15.20897845057384]
FinVis-GPTは、財務チャート分析に特化して設計された、新しいマルチモーダル大言語モデル(LLM)である。
提案されたFinVis-GPTは、金融分野におけるマルチモーダル LLM の利用の先駆的な取り組みである。
論文 参考訳(メタデータ) (2023-07-31T07:44:15Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model
for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。
ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。
私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文 参考訳(メタデータ) (2022-10-31T18:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。