論文の概要: VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models
- arxiv url: http://arxiv.org/abs/2406.10228v1
- Date: Fri, 14 Jun 2024 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 12:27:23.227241
- Title: VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models
- Title(参考訳): VEGA:視覚言語大モデルにおけるインターリーブ画像テキスト理解
- Authors: Chenyu Zhou, Mengdan Zhang, Peixian Chen, Chaoyou Fu, Yunhang Shen, Xiawu Zheng, Xing Sun, Rongrong Ji,
- Abstract要約: 我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
- 参考スコア(独自算出の注目度): 76.94378391979228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The swift progress of Multi-modal Large Models (MLLMs) has showcased their impressive ability to tackle tasks blending vision and language. Yet, most current models and benchmarks cater to scenarios with a narrow scope of visual and textual contexts. These models often fall short when faced with complex comprehension tasks, which involve navigating through a plethora of irrelevant and potentially misleading information in both text and image forms. To bridge this gap, we introduce a new, more demanding task known as Interleaved Image-Text Comprehension (IITC). This task challenges models to discern and disregard superfluous elements in both images and text to accurately answer questions and to follow intricate instructions to pinpoint the relevant image. In support of this task, we further craft a new VEGA dataset, tailored for the IITC task on scientific content, and devised a subtask, Image-Text Association (ITA), to refine image-text correlation skills. Our evaluation of four leading closed-source models, as well as various open-source models using VEGA, underscores the rigorous nature of IITC. Even the most advanced models, such as Gemini-1.5-pro and GPT4V, only achieved modest success. By employing a multi-task, multi-scale post-training strategy, we have set a robust baseline for MLLMs on the IITC task, attaining an $85.8\%$ accuracy rate in image association and a $0.508$ Rouge score. These results validate the effectiveness of our dataset in improving MLLMs capabilities for nuanced image-text comprehension.
- Abstract(参考訳): MLLM(Multi-modal Large Models)の急速な進歩は、視覚と言語をブレンドするタスクに取り組むという、印象的な能力を示した。
しかし、現在のモデルやベンチマークのほとんどは、視覚的およびテキスト的コンテキストの範囲が狭いシナリオに対応している。
これらのモデルは複雑な理解タスクに直面した場合、しばしば不足する。
このギャップを埋めるために,Interleaved Image-Text Comprehension (IITC) と呼ばれる,より要求の高いタスクを導入する。
このタスクは、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答え、関連する画像をピンポイントする複雑な指示に従うようモデルに挑戦する。
このタスクを支援するために,科学コンテンツに関するIITCタスクに適したVEGAデータセットを新たに構築し,画像テキスト相関技術を洗練するためのサブタスクである画像テキストアソシエーション(ITA)を考案した。
VEGAを用いた4つの主要なクローズドソースモデルおよび様々なオープンソースモデルの評価は、IITCの厳密な性質を裏付けるものである。
Gemini-1.5-proやGPT4Vのような最も先進的なモデルでさえ、わずかしか成功しなかった。
マルチタスクでマルチスケールのポストトレーニング戦略を用いて,IITCタスク上でのMLLMの堅牢なベースラインを設定し,画像アソシエーションの精度が85.8\%,ルージュスコアが0.508ドルに達した。
これらの結果から,画像テキスト理解のためのMLLMの性能向上におけるデータセットの有効性が検証された。
関連論文リスト
- StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。