論文の概要: Exploring the Capabilities of Large Multimodal Models on Dense Text
- arxiv url: http://arxiv.org/abs/2405.06706v1
- Date: Thu, 9 May 2024 07:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 20:31:40.646240
- Title: Exploring the Capabilities of Large Multimodal Models on Dense Text
- Title(参考訳): ディエンステキストを用いた大規模マルチモーダルモデルの能力探索
- Authors: Shuo Zhang, Biao Yang, Zhang Li, Zhiyin Ma, Yuliang Liu, Xiang Bai,
- Abstract要約: 我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
- 参考スコア(独自算出の注目度): 58.82262549456294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large multi-modal models (LMM) have shown notable progress in multi-modal tasks, their capabilities in tasks involving dense textual content remains to be fully explored. Dense text, which carries important information, is often found in documents, tables, and product descriptions. Understanding dense text enables us to obtain more accurate information, assisting in making better decisions. To further explore the capabilities of LMM in complex text tasks, we propose the DT-VQA dataset, with 170k question-answer pairs. In this paper, we conduct a comprehensive evaluation of GPT4V, Gemini, and various open-source LMMs on our dataset, revealing their strengths and weaknesses. Furthermore, we evaluate the effectiveness of two strategies for LMM: prompt engineering and downstream fine-tuning. We find that even with automatically labeled training datasets, significant improvements in model performance can be achieved. We hope that this research will promote the study of LMM in dense text tasks. Code will be released at https://github.com/Yuliang-Liu/MultimodalOCR.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は, マルチモーダルタスクの顕著な進歩を示しているが, 密集したテキストコンテンツを含むタスクにおけるそれらの機能については, 十分に検討が続けられている。
重要な情報を伝達するデンステキストは、しばしば文書、表、製品記述に見られる。
密集したテキストを理解することで、より正確な情報を得ることができ、より良い意思決定を支援することができます。
複雑なテキストタスクにおけるLMMのさらなる機能を探るため,170kの問合せ対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行い,その長所と短所を明らかにする。
さらに,LMMにおける2つの戦略,即時工学と下流微調整の有効性を評価した。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
この研究は、高密度テキストタスクにおけるLMMの研究を促進することを願っている。
コードはhttps://github.com/Yuliang-Liu/MultimodalOCRでリリースされる。
関連論文リスト
- LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。
既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。
本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines [91.08394877954322]
大規模マルチモーダルモデル(LMM)は、AI検索エンジンにおいて目覚ましい進歩を遂げた。
しかし、AI検索エンジンとして機能するかどうかはまだ未定だ。
まず,マルチモーダル検索機能を備えた任意のLMMに対して,センシティブなパイプラインMMSearch-Engineを設計する。
論文 参考訳(メタデータ) (2024-09-19T17:59:45Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - Multimodal Entity Tagging with Multimodal Knowledge Base [45.84732232595781]
マルチモーダル知識ベース(MKB)を用いたMET(Multimodal entity tagging)というタスクを提案する。
METでは、テキストイメージペアが与えられた場合、MKB内の情報を使用して、テキストイメージペア内の関連エンティティを自動的に識別する。
我々は広範な実験を行い、実験結果について分析する。
論文 参考訳(メタデータ) (2021-12-21T15:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。