論文の概要: Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of
Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.00231v2
- Date: Mon, 4 Mar 2024 07:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:59:59.318516
- Title: Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of
Large Vision-Language Models
- Title(参考訳): マルチモーダルArXiv:大規模視覚言語モデルの科学的理解を改善するデータセット
- Authors: Lei Li, Yuqi Wang, Runxin Xu, Peiyi Wang, Xiachong Feng, Lingpeng
Kong, Qi Liu
- Abstract要約: 我々は、LVLMの科学的理解を高めるために、ArXivCapとArXivQAからなるMultimodal ArXivを紹介する。
ArXivCapは、6.4Mの画像と3.9Mキャプションからなるフィギュアキャプチャーデータセットである。
ArXivQAはLVLMの数学的推論能力を大幅に向上させ、マルチモーダルな数学的推論ベンチマークで10.4%の精度向上を達成した。
- 参考スコア(独自算出の注目度): 54.58923299007428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs), exemplified by GPT-4V, excel across
diverse tasks involving concrete images from natural scenes. However, their
ability to interpret abstract figures, such as geometry shapes and scientific
plots, remains limited due to a scarcity of training datasets in scientific
domains. To fill this gap, we introduce Multimodal ArXiv, consisting of
ArXivCap and ArXivQA, for enhancing LVLMs scientific comprehension. ArXivCap is
a figure-caption dataset comprising 6.4M images and 3.9M captions sourced from
572K ArXiv papers spanning various scientific domains. Drawing from ArXivCap,
we introduce ArXivQA, a question-answering dataset generated by prompting
GPT-4V based on scientific figures. ArXivQA greatly enhances LVLMs'
mathematical reasoning capabilities, achieving a 10.4% absolute accuracy gain
on a multimodal mathematical reasoning benchmark. Furthermore, employing
ArXivCap, we devise four vision-to-text tasks for benchmarking LVLMs.
Evaluation results with state-of-the-art LVLMs underscore their struggle with
the nuanced semantics of academic figures, with domain-specific training
yielding substantial performance gains. Our error analysis uncovers
misinterpretations of visual context, recognition errors, and the production of
overly simplified captions by current LVLMs, shedding light on future
improvements.
- Abstract(参考訳): GPT-4Vで実証された大型視覚言語モデル(LVLM)は、自然界からの具体的な画像を含む様々なタスクに優れる。
しかし、幾何学的形状や科学的プロットなどの抽象的な図形を解釈する能力は、科学領域における訓練データセットの不足のために制限されている。
このギャップを埋めるために、LVLMの科学的理解を高めるために、ArXivCapとArXivQAからなるMultimodal ArXivを導入する。
ArXivCapは、6.4Mの画像と3.9Mキャプションからなるフィギュアキャプチャーデータセットである。
ArXivCapから引用したArXivQAは,科学的数値に基づいてGPT-4Vをプロンプトした質問応答データセットである。
ArXivQAはLVLMの数学的推論能力を大幅に向上させ、マルチモーダルな数学的推論ベンチマークで10.4%の精度向上を達成した。
さらに,ArXivCapを用いて,LVLMのベンチマークを行う4つのタスクを考案した。
現状のLVLMによる評価の結果は、学識者のニュアンスドセマンティクスとの抗争を浮き彫りにしており、ドメイン固有のトレーニングは、実質的なパフォーマンス向上をもたらす。
我々の誤り分析は、視覚的コンテキストの誤解釈、認識誤り、そして現在のLVLMによる過度に単純化されたキャプションの生成を明らかにし、将来の改善に光を当てる。
関連論文リスト
- AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions [52.9787902653558]
LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。
LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。
AVIBenchは、様々な対向的な視覚的命令に直面した場合のLVLMの堅牢性を分析するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept
Recognition in Large Vision Language Models [68.46457611340097]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities
and Future Opportunities [68.86209486449924]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。
我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文 参考訳(メタデータ) (2023-05-22T15:56:44Z) - Measuring Progress in Fine-grained Vision-and-Language Understanding [23.377634283746698]
詳細なベンチマークにおいて、4つの競合する視覚・言語モデルについて検討する。
X-VLMは、他のベースラインよりも一貫して優れています。
細かなスキルを習得する上で,新たな損失と豊富なデータソースの両方の重要性を強調した。
論文 参考訳(メタデータ) (2023-05-12T15:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。