論文の概要: MATE: Meet At The Embedding -- Connecting Images with Long Texts
- arxiv url: http://arxiv.org/abs/2407.09541v1
- Date: Wed, 26 Jun 2024 14:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:18:53.330375
- Title: MATE: Meet At The Embedding -- Connecting Images with Long Texts
- Title(参考訳): MATE: 埋め込み ― 長いテキストで画像を繋ぐ
- Authors: Young Kyun Jang, Junmo Kang, Yong Jae Lee, Donghyun Kim,
- Abstract要約: Meet At The Embedding (MATE)は、大型言語モデル(LLM)とビジョン言語モデル(VLM)の機能を組み合わせた、新しいアプローチである。
我々は、VLMのテキストエンコーダを、長文の理解に優れたLLMベースのエンコーダに置き換える。
画像と長いテキストを接続するタスクを評価するために,2つの新たなクロスモーダル検索ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 37.27283238166393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While advancements in Vision Language Models (VLMs) have significantly improved the alignment of visual and textual data, these models primarily focus on aligning images with short descriptive captions. This focus limits their ability to handle complex text interactions, particularly with longer texts such as lengthy captions or documents, which have not been extensively explored yet. In this paper, we introduce Meet At The Embedding (MATE), a novel approach that combines the capabilities of VLMs with Large Language Models (LLMs) to overcome this challenge without the need for additional image-long text pairs. Specifically, we replace the text encoder of the VLM with a pretrained LLM-based encoder that excels in understanding long texts. To bridge the gap between VLM and LLM, MATE incorporates a projection module that is trained in a multi-stage manner. It starts by aligning the embeddings from the VLM text encoder with those from the LLM using extensive text pairs. This module is then employed to seamlessly align image embeddings closely with LLM embeddings. We propose two new cross-modal retrieval benchmarks to assess the task of connecting images with long texts (lengthy captions / documents). Extensive experimental results demonstrate that MATE effectively connects images with long texts, uncovering diverse semantic relationships.
- Abstract(参考訳): 視覚言語モデル(VLM)の進歩は、視覚的およびテキスト的データの整合性を大幅に向上させてきたが、これらのモデルは、主に画像と短い記述的キャプションの整合性に焦点を当てている。
この焦点は複雑なテキストのやりとりを扱う能力を制限するもので、特に長いキャプションや文書のような長いテキストは、まだ広く研究されていない。
本稿では,VLMとLarge Language Models(LLM)の機能を組み合わせた新たなアプローチであるMeet At The Embedding(MATE)を紹介し,画像長文ペアの追加を必要とせずに,この課題を克服する。
具体的には、VLMのテキストエンコーダを、長文の理解に優れたLLMベースのエンコーダに置き換える。
VLMとLLMのギャップを埋めるために、MATEは多段階的に訓練されたプロジェクションモジュールを組み込んでいる。
VLMテキストエンコーダからの埋め込みと、広範なテキストペアを使用してLLMからの埋め込みをアライメントすることから始まる。
このモジュールは、LLM埋め込みと密に画像埋め込みをシームレスに整列するために使用される。
画像と長文(長文キャプション/文書)を接続するタスクを評価するために,2つの新たなクロスモーダル検索ベンチマークを提案する。
大規模な実験結果から、MATEは画像と長いテキストを効果的に結合し、多様な意味関係を明らかにする。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Wings: Learning Multimodal LLMs without Text-only Forgetting [63.56085426442873]
Wingsは、テキストのみの対話とマルチモーダル理解の両方に優れる新しいMLLMである。
実験の結果、Wingsはテキストのみの問合せタスクと視覚的問合せタスクの両方において、MLLMのスケールが等しく優れていることが示された。
論文 参考訳(メタデータ) (2024-06-05T17:59:40Z) - TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment [42.557643515992005]
ビデオの理解は、相当量のWebビデオテキストデータが利用できるにもかかわらず、依然として課題である。
ビデオ理解のための大規模言語モデル(LLM)を拡張する新しいアプローチであるテキストオンリー・プレアライメント(TOPA)を導入する。
論文 参考訳(メタデータ) (2024-05-22T18:35:10Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - What Large Language Models Bring to Text-rich VQA? [38.569505870771025]
テキストリッチVQA(英: Text-rich VQA)は、画像中のテキスト認識に基づく視覚的質問応答(Visual Question Answering)であり、画像の理解とテキスト認識の両方を必要とする。
上記の懸念に対処するために、外部のOCRモデルを用いて画像中のテキストを認識し、Large Language Models (LLMs) を用いて質問に答える。
このパイプラインは、既存のMLLM(Multimodal Large Language Models)の4つのテキストリッチなVQAデータセットと比較して、優れたパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-11-13T12:52:29Z) - SwitchGPT: Adapting Large Language Models for Non-Text Outputs [28.656227306028743]
大規模言語モデル(LLM)は主にテキストベースのデータセットに基づいて訓練されている。
LLMは、テキスト出力による複雑な言語命令の理解と実行において、非常に優れた能力を示す。
テキストベースのLLMをマルチモーダルに進化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T11:38:23Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。