Fugu-MT 論文翻訳(概要): Exploring the Capabilities of Large Multimodal Models on Dense Text

論文の概要: Exploring the Capabilities of Large Multimodal Models on Dense Text

arxiv url: http://arxiv.org/abs/2405.06706v1
Date: Thu, 9 May 2024 07:47:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 20:31:40.646240
Title: Exploring the Capabilities of Large Multimodal Models on Dense Text
Title（参考訳）: ディエンステキストを用いた大規模マルチモーダルモデルの能力探索
Authors: Shuo Zhang, Biao Yang, Zhang Li, Zhiyin Ma, Yuliang Liu, Xiang Bai,
Abstract要約: 我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
参考スコア（独自算出の注目度）: 58.82262549456294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large multi-modal models (LMM) have shown notable progress in multi-modal tasks, their capabilities in tasks involving dense textual content remains to be fully explored. Dense text, which carries important information, is often found in documents, tables, and product descriptions. Understanding dense text enables us to obtain more accurate information, assisting in making better decisions. To further explore the capabilities of LMM in complex text tasks, we propose the DT-VQA dataset, with 170k question-answer pairs. In this paper, we conduct a comprehensive evaluation of GPT4V, Gemini, and various open-source LMMs on our dataset, revealing their strengths and weaknesses. Furthermore, we evaluate the effectiveness of two strategies for LMM: prompt engineering and downstream fine-tuning. We find that even with automatically labeled training datasets, significant improvements in model performance can be achieved. We hope that this research will promote the study of LMM in dense text tasks. Code will be released at https://github.com/Yuliang-Liu/MultimodalOCR.
Abstract（参考訳）: 大規模マルチモーダルモデル (LMM) は, マルチモーダルタスクの顕著な進歩を示しているが, 密集したテキストコンテンツを含むタスクにおけるそれらの機能については, 十分に検討が続けられている。重要な情報を伝達するデンステキストは、しばしば文書、表、製品記述に見られる。密集したテキストを理解することで、より正確な情報を得ることができ、より良い意思決定を支援することができます。複雑なテキストタスクにおけるLMMのさらなる機能を探るため,170kの問合せ対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行い,その長所と短所を明らかにする。さらに,LMMにおける2つの戦略,即時工学と下流微調整の有効性を評価した。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。この研究は、高密度テキストタスクにおけるLMMの研究を促進することを願っている。コードはhttps://github.com/Yuliang-Liu/MultimodalOCRでリリースされる。

関連論文リスト

An Evaluation of Large Language Models on Text Summarization Tasks Using Prompt Engineering Techniques [0.0]
大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を持って、自然言語処理の進歩を続けている。 CNN/Daily MailとNewsRoom(ニューズ)、SAMSum(ダイアログ)、ArXiv(サイエンティフィック)の4つのデータセットにまたがる6つのLCMを体系的に評価する。本研究では,ROUGEとBERTScoreの測定値を用いて評価を行った。 Longドキュメントには、短いコンテキストウィンドウを持つLLMが複数の段階で拡張入力を要約できる文ベースのチャンキング戦略が導入されている。
論文参考訳（メタデータ） (2025-07-07T15:34:05Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。 LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文参考訳（メタデータ） (2024-10-13T05:26:36Z)
ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文参考訳（メタデータ） (2024-10-08T09:35:37Z)
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines [91.08394877954322]
大規模マルチモーダルモデル(LMM)は、AI検索エンジンにおいて目覚ましい進歩を遂げた。しかし、AI検索エンジンとして機能するかどうかはまだ未定だ。まず,マルチモーダル検索機能を備えた任意のLMMに対して,センシティブなパイプラインMMSearch-Engineを設計する。
論文参考訳（メタデータ） (2024-09-19T17:59:45Z)
Enhancing Journalism with AI: A Study of Contextualized Image Captioning for News Articles using LLMs and LMMs [2.1165011830664673]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)はAIコミュニティに大きな影響を与えている。本研究では,LLMとLMMが,ニュース記事に付随する画像の文脈的キャプションを生成することによって,ジャーナリストの実践を支援する方法について検討する。
論文参考訳（メタデータ） (2024-08-08T09:31:24Z)
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents [93.55219461948529]
PIN(Paired and INterleaved multimodal document)は、視覚とテキストの知識のより深い統合を促進するために設計された、新しいデータフォーマットである。 PIN-200M(2億ドキュメント)とPIN-14M(14百万ドキュメント)の2つの大規模オープンソースデータセットを構築しリリースする。
論文参考訳（メタデータ） (2024-06-20T01:43:08Z)
Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文参考訳（メタデータ） (2024-06-11T13:09:16Z)
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。 LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文参考訳（メタデータ） (2023-09-18T17:30:46Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Multimodal Entity Tagging with Multimodal Knowledge Base [45.84732232595781]
マルチモーダル知識ベース(MKB)を用いたMET(Multimodal entity tagging)というタスクを提案する。 METでは、テキストイメージペアが与えられた場合、MKB内の情報を使用して、テキストイメージペア内の関連エンティティを自動的に識別する。我々は広範な実験を行い、実験結果について分析する。
論文参考訳（メタデータ） (2021-12-21T15:04:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。