論文の概要: FinChart-Bench: Benchmarking Financial Chart Comprehension in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.14823v1
- Date: Sun, 20 Jul 2025 05:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.075839
- Title: FinChart-Bench: Benchmarking Financial Chart Comprehension in Vision-Language Models
- Title(参考訳): FinChart-Bench:ビジョンランゲージモデルにおける財務チャート理解のベンチマーク
- Authors: Dong Shu, Haoyang Yuan, Yuchen Wang, Yanguang Liu, Huopu Zhang, Haiyan Zhao, Mengnan Du,
- Abstract要約: 我々はFinChart-Benchを紹介します。
FinChart-Benchは2015年から2024年にかけて収集された1200枚の財務図で構成されており、それぞれにTrue/False(TF)、Multiple Choice(MC)、QA(QA)の質問が注釈付けされており、合計で7,016の質問がある。
我々はFinChart-Bench上で25個の最先端LVLMの総合評価を行う。
- 参考スコア(独自算出の注目度): 19.280876144374567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) have made significant progress in chart understanding. However, financial charts, characterized by complex temporal structures and domain-specific terminology, remain notably underexplored. We introduce FinChart-Bench, the first benchmark specifically focused on real-world financial charts. FinChart-Bench comprises 1,200 financial chart images collected from 2015 to 2024, each annotated with True/False (TF), Multiple Choice (MC), and Question Answering (QA) questions, totaling 7,016 questions. We conduct a comprehensive evaluation of 25 state-of-the-art LVLMs on FinChart-Bench. Our evaluation reveals critical insights: (1) the performance gap between open-source and closed-source models is narrowing, (2) performance degradation occurs in upgraded models within families, (3) many models struggle with instruction following, (4) both advanced models show significant limitations in spatial reasoning abilities, and (5) current LVLMs are not reliable enough to serve as automated evaluators. These findings highlight important limitations in current LVLM capabilities for financial chart understanding. The FinChart-Bench dataset is available at https://huggingface.co/datasets/Tizzzzy/FinChart-Bench.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、チャート理解において大きな進歩を遂げた。
しかし、複雑な時間構造とドメイン固有の用語によって特徴づけられる財務チャートは、明らかに未発見のままである。
我々はFinChart-Benchを紹介します。
FinChart-Benchは2015年から2024年にかけて収集された1200枚の財務図で構成されており、それぞれにTrue/False(TF)、Multiple Choice(MC)、QA(QA)の質問が注釈付けされており、合計で7,016の質問がある。
我々はFinChart-Bench上で25個の最先端LVLMの総合評価を行う。
評価の結果,(1)オープンソースモデルとクローズドソースモデルのパフォーマンスギャップが狭まり,(2)家族内のアップグレードモデルに性能劣化が生じ,(3)多くのモデルが指示に苦しむ,(4)高度なモデルが空間推論能力に重大な限界を示し,(5)現在のLVLMは自動評価器として機能するには不十分である,といった重要な知見が得られた。
これらの知見は、財務チャート理解のための現在のLVLM機能における重要な限界を浮き彫りにしている。
FinChart-Benchデータセットはhttps://huggingface.co/datasets/Tizzzzy/FinChart-Benchで公開されている。
関連論文リスト
- In-Depth and In-Breadth: Pre-training Multimodal Language Models Customized for Comprehensive Chart Understanding [113.17601814293722]
様々なチャートタイプにまたがる詳細なチャート理解に最適化されたLVLMであるChartScopeを紹介する。
そこで本研究では,多種多様なグラフ型のペアデータを生成する,効率的なデータ生成パイプラインを提案する。
また、異なるレベルでの質問回答だけでなく、基礎となるデータ理解を評価するための新しいベンチマークであるChartDQAも確立しました。
論文 参考訳(メタデータ) (2025-07-18T18:15:09Z) - MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning [42.80085792749683]
本稿では,VQA(Visual Question Answering)ベンチマークであるMME-Financeを提案する。
このベンチマークの特徴は財務と専門知識であり、実際のユーザのニーズを反映したチャートの構築を含む。
また,中国語の文脈下でのMLLMの性能比較を支援する中国語版を提案する。
論文 参考訳(メタデータ) (2024-11-05T18:59:51Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [55.22996841790139]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。