論文の概要: MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning
- arxiv url: http://arxiv.org/abs/2311.10774v2
- Date: Mon, 15 Apr 2024 15:48:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 23:55:11.782570
- Title: MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning
- Title(参考訳): MMC:大規模インストラクションチューニングによるマルチモーダルチャート理解の促進
- Authors: Fuxiao Liu, Xiaoyang Wang, Wenlin Yao, Jianshu Chen, Kaiqiang Song, Sangwoo Cho, Yaser Yacoob, Dong Yu,
- Abstract要約: グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
- 参考スコア(独自算出の注目度): 48.63002688222462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of large language models (LLMs) and their integration into large multimodal models (LMMs), there has been impressive progress in zero-shot completion of user-oriented vision-language tasks. However, a gap remains in the domain of chart image understanding due to the distinct abstract components in charts. To address this, we introduce a large-scale MultiModal Chart Instruction (\textbf{MMC-Instruction}) dataset comprising 600k instances supporting diverse tasks and chart types. Leveraging this data, we develop MultiModal Chart Assistant (\textbf{MMCA}), an LMM that achieves state-of-the-art performance on existing chart QA benchmarks. Recognizing the need for a comprehensive evaluation of LMM chart understanding, we also propose a MultiModal Chart Benchmark (\textbf{MMC-Benchmark}), a comprehensive human-annotated benchmark with nine distinct tasks evaluating reasoning capabilities over charts. Extensive experiments on MMC-Benchmark reveal the limitations of existing LMMs on correctly interpreting charts, even for the most recent GPT-4V model. Our work provides an instruction-tuning methodology and benchmark to advance multimodal understanding of charts. Code and data are available at https://github.com/FuxiaoLiu/MMC.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発と,大規模マルチモーダルモデル(LMM)への統合により,ユーザ指向の視覚言語タスクのゼロショット完了が目覚ましい進歩を遂げた。
しかし、グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にはギャップが残っている。
そこで本研究では,タスクやチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクション(\textbf{MMC-Instruction})データセットを提案する。
このデータを活用することで、既存のグラフQAベンチマークで最先端のパフォーマンスを実現するLMMであるMultiModal Chart Assistant(\textbf{MMCA})を開発する。
また、LMMチャート理解の総合的な評価の必要性を認識し、グラフ上の推論能力を評価する9つの異なるタスクを持つ総合的人間アノテーションベンチマークであるMultipleModal Chart Benchmark(\textbf{MMC-Benchmark})を提案する。
MMC-Benchmarkの大規模な実験は、最新のGPT-4Vモデルであっても、チャートを正しく解釈する既存のLMMの限界を明らかにしている。
我々の研究は、チャートのマルチモーダル理解を促進するための命令チューニング手法とベンチマークを提供する。
コードとデータはhttps://github.com/FuxiaoLiu/MMC.comで公開されている。
関連論文リスト
- TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for
Complicated Chart Reasoning [56.4579228575522]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [38.66840297139763]
複雑な視覚的推論によってMLLMのチャート理解とデータの信頼性を評価するためにChartBenchを提案する。
ChartBenchは、42のカテゴリ、2.1Kのチャート、16.8Kの質問応答ペアを含む幅広いスペクトルを含んでいる。
また、労働集約的な手作業を必要とせずにMLLMの評価を容易にする拡張評価指標であるAcc+を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。