論文の概要: MMC: Advancing Multimodal Chart Understanding with Large-scale
Instruction Tuning
- arxiv url: http://arxiv.org/abs/2311.10774v1
- Date: Wed, 15 Nov 2023 23:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:33:55.302938
- Title: MMC: Advancing Multimodal Chart Understanding with Large-scale
Instruction Tuning
- Title(参考訳): MMC:大規模インストラクションチューニングによるマルチモーダルチャート理解の促進
- Authors: Fuxiao Liu, Xiaoyang Wang, Wenlin Yao, Jianshu Chen, Kaiqiang Song,
Sangwoo Cho, Yaser Yacoob, Dong Yu
- Abstract要約: グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
既存のグラフQAベンチマークで最先端の性能を実現するLMMであるMultiModal Chart Assistant(MMCA)を開発した。
- 参考スコア(独自算出の注目度): 50.72453216533178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of large language models (LLMs) and their
integration into large multimodal models (LMMs), there has been impressive
progress in zero-shot completion of user-oriented vision-language tasks.
However, a gap remains in the domain of chart image understanding due to the
distinct abstract components in charts. To address this, we introduce a
large-scale MultiModal Chart Instruction (MMC-Instruction) dataset comprising
600k instances supporting diverse tasks and chart types. Leveraging this data,
we develop MultiModal Chart Assistant (MMCA), an LMM that achieves
state-of-the-art performance on existing chart QA benchmarks. Recognizing the
need for a comprehensive evaluation of LMM chart understanding, we also propose
a MultiModal Chart Benchmark (MMC-Benchmark), a comprehensive human-annotated
benchmark with 9 distinct tasks evaluating reasoning capabilities over charts.
Extensive experiments on MMC-Benchmark reveal the limitations of existing LMMs
on correctly interpreting charts, even for the most recent GPT-4V model. Our
work provides an instruction-tuning methodology and benchmark to advance
multimodal understanding of charts.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発と,大規模マルチモーダルモデル(LMM)への統合により,ユーザ指向の視覚言語タスクのゼロショット完了が目覚ましい進歩を遂げた。
しかし、グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にはギャップが残っている。
これに対処するために,600kインスタンスからなる大規模マルチモーダルチャート命令(mmc-instruction)データセットを導入し,多様なタスクとチャートタイプをサポートする。
このデータを活用することで、既存のグラフQAベンチマークで最先端のパフォーマンスを実現するLMMであるMultiModal Chart Assistant(MMCA)を開発する。
また、LMMチャート理解の総合的な評価の必要性を認識し、グラフ上の推論能力を評価する9つの異なるタスクを持つ総合的人間アノテーションベンチマークであるMultiModal Chart Benchmark(MMC-Benchmark)を提案する。
MMC-Benchmarkの大規模な実験は、最新のGPT-4Vモデルであっても、チャートを正しく解釈する既存のLMMの限界を明らかにしている。
本研究は,グラフのマルチモーダル理解を促進するための命令チューニング手法とベンチマークを提供する。
関連論文リスト
- MultiChartQA: Benchmarking Vision-Language Models on Multi-Chart Problems [18.188725200923333]
チャート関連タスクの既存のベンチマークは、実世界のマルチチャートシナリオの複雑さを捉えるのに不足している。
直接質問応答,並列質問応答,比較推論,シーケンシャル推論の4つの重要な領域でMLLMの能力を評価するベンチマークであるMultiChartQAを紹介する。
本研究は,マルチチャート理解の課題と,この分野での進歩を促進するためのマルチチャートQAの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-18T05:15:50Z) - ChartMoE: Mixture of Expert Connector for Advanced Chart Understanding [34.750274110196116]
本稿では,従来の線形プロジェクタを置き換えるために,専門家(MoE)アーキテクチャの混合を用いたChartMoEを提案する。
具体的には、異なるアライメントタスクを通じて複数の線形コネクタを訓練する。
ChartMoE-Alignも導入しています。これは900K以上のチャートテーブル-JSON-コードの4倍数を持つデータセットで、3つのアライメントタスクを実行します。
論文 参考訳(メタデータ) (2024-09-05T06:41:02Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation [42.945960365307485]
我々は,大規模マルチモーダルモデル(LMM)の視覚的なコード生成能力を評価することを目的とした,新しいベンチマークであるChartMimicを導入する。
ChartMimicには1,000の人造(図、命令、コード)の三つ子が含まれている。
既存のコード生成ベンチマークとは異なり、ChartMimicは認知能力のブレンドを調和させるLMMの能力を評価することに重点を置いている。
論文 参考訳(メタデータ) (2024-06-14T12:10:51Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - ChartBench: A Benchmark for Complex Visual Reasoning in Charts [36.492851648081405]
MLLM(Multimodal Large Language Models)は画像の理解と生成に優れた能力を示している。
現在のベンチマークでは、限定的なチャートタイプと不適切なメトリクスのため、MLLMのチャート理解を正確に評価することができない。
複雑な視覚的推論によってチャートの理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを提案する。
論文 参考訳(メタデータ) (2023-12-26T07:20:55Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。