論文の概要: MMC: Advancing Multimodal Chart Understanding with Large-scale
Instruction Tuning
- arxiv url: http://arxiv.org/abs/2311.10774v1
- Date: Wed, 15 Nov 2023 23:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:33:55.302938
- Title: MMC: Advancing Multimodal Chart Understanding with Large-scale
Instruction Tuning
- Title(参考訳): MMC:大規模インストラクションチューニングによるマルチモーダルチャート理解の促進
- Authors: Fuxiao Liu, Xiaoyang Wang, Wenlin Yao, Jianshu Chen, Kaiqiang Song,
Sangwoo Cho, Yaser Yacoob, Dong Yu
- Abstract要約: グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
既存のグラフQAベンチマークで最先端の性能を実現するLMMであるMultiModal Chart Assistant(MMCA)を開発した。
- 参考スコア(独自算出の注目度): 50.72453216533178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of large language models (LLMs) and their
integration into large multimodal models (LMMs), there has been impressive
progress in zero-shot completion of user-oriented vision-language tasks.
However, a gap remains in the domain of chart image understanding due to the
distinct abstract components in charts. To address this, we introduce a
large-scale MultiModal Chart Instruction (MMC-Instruction) dataset comprising
600k instances supporting diverse tasks and chart types. Leveraging this data,
we develop MultiModal Chart Assistant (MMCA), an LMM that achieves
state-of-the-art performance on existing chart QA benchmarks. Recognizing the
need for a comprehensive evaluation of LMM chart understanding, we also propose
a MultiModal Chart Benchmark (MMC-Benchmark), a comprehensive human-annotated
benchmark with 9 distinct tasks evaluating reasoning capabilities over charts.
Extensive experiments on MMC-Benchmark reveal the limitations of existing LMMs
on correctly interpreting charts, even for the most recent GPT-4V model. Our
work provides an instruction-tuning methodology and benchmark to advance
multimodal understanding of charts.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発と,大規模マルチモーダルモデル(LMM)への統合により,ユーザ指向の視覚言語タスクのゼロショット完了が目覚ましい進歩を遂げた。
しかし、グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にはギャップが残っている。
これに対処するために,600kインスタンスからなる大規模マルチモーダルチャート命令(mmc-instruction)データセットを導入し,多様なタスクとチャートタイプをサポートする。
このデータを活用することで、既存のグラフQAベンチマークで最先端のパフォーマンスを実現するLMMであるMultiModal Chart Assistant(MMCA)を開発する。
また、LMMチャート理解の総合的な評価の必要性を認識し、グラフ上の推論能力を評価する9つの異なるタスクを持つ総合的人間アノテーションベンチマークであるMultiModal Chart Benchmark(MMC-Benchmark)を提案する。
MMC-Benchmarkの大規模な実験は、最新のGPT-4Vモデルであっても、チャートを正しく解釈する既存のLMMの限界を明らかにしている。
本研究は,グラフのマルチモーダル理解を促進するための命令チューニング手法とベンチマークを提供する。
関連論文リスト
- Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for
Complicated Chart Reasoning [56.4579228575522]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [38.66840297139763]
複雑な視覚的推論によってMLLMのチャート理解とデータの信頼性を評価するためにChartBenchを提案する。
ChartBenchは、42のカテゴリ、2.1Kのチャート、16.8Kの質問応答ペアを含む幅広いスペクトルを含んでいる。
また、労働集約的な手作業を必要とせずにMLLMの評価を容易にする拡張評価指標であるAcc+を提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [50.12526092423589]
もっとも先進的なLMMでさえ、構成的視覚的推論の側面を捉えるのに苦戦している。
本稿では,新しいゼロショット・チェーン・オブ・ノート法であるコンポジション・チェーン・オブ・ノート(CCoT)を提案する。
具体的には、まずLMMを用いてSGを生成し、次にそのSGをプロンプトに使用して応答を生成する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - Modeling Temporal-Modal Entity Graph for Procedural Multimodal Machine
Comprehension [23.281727955934304]
手続き型マルチモーダル文書(PMD)は、テキスト命令とそれに対応する画像を段階的に整理する。
本研究では,M3C(Procedural MultiModal Machine)を細粒度レベルで(文書や文レベルでの既存調査と比較)アプローチする。
論文 参考訳(メタデータ) (2022-04-06T03:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。