Fugu-MT 論文翻訳(概要): VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

論文の概要: VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

arxiv url: http://arxiv.org/abs/2406.04292v1
Date: Thu, 6 Jun 2024 17:37:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 13:30:41.755023
Title: VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval
Title（参考訳）: VISTA:Universal Multi-Modal Retrievalのためのビジュアルテキスト埋め込み
Authors: Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong,
Abstract要約: 汎用マルチモーダル検索のための新しい埋め込みモデルVISTAを提案する。画像理解機能を備えた強力なテキストエンコーダを拡張するフレキシブルアーキテクチャを導入する。第2に,埋め込みモデルのトレーニングを容易にするために,高品質な合成画像テキストを提供する2つのデータ生成戦略を開発する。
参考スコア（独自算出の注目度）: 10.603148564713518
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal retrieval becomes increasingly popular in practice. However, the existing retrievers are mostly text-oriented, which lack the capability to process visual information. Despite the presence of vision-language models like CLIP, the current methods are severely limited in representing the text-only and image-only data. In this work, we present a new embedding model VISTA for universal multi-modal retrieval. Our work brings forth threefold technical contributions. Firstly, we introduce a flexible architecture which extends a powerful text encoder with the image understanding capability by introducing visual token embeddings. Secondly, we develop two data generation strategies, which bring high-quality composed image-text to facilitate the training of the embedding model. Thirdly, we introduce a multi-stage training algorithm, which first aligns the visual token embedding with the text encoder using massive weakly labeled data, and then develops multi-modal representation capability using the generated composed image-text data. In our experiments, VISTA achieves superior performances across a variety of multi-modal retrieval tasks in both zero-shot and supervised settings. Our model, data, and source code are available at https://github.com/FlagOpen/FlagEmbedding.
Abstract（参考訳）: マルチモーダル検索は、実際はますます人気が高まっている。しかし、既存のレトリバーはほとんどがテキスト指向であり、視覚情報を処理する能力がない。 CLIPのような視覚言語モデルが存在するにもかかわらず、現在の手法はテキストのみのデータと画像のみのデータを表現することに大きく制限されている。本研究では,汎用マルチモーダル検索のための新しい埋め込みモデルVISTAを提案する。私たちの仕事は3倍の技術的貢献をもたらします。まず,視覚的トークン埋め込みを導入することで,画像理解機能を備えた強力なテキストエンコーダを拡張するフレキシブルアーキテクチャを提案する。第2に,埋め込みモデルのトレーニングを容易にするために,高品質な合成画像テキストを提供する2つのデータ生成戦略を開発する。第3に,大量の弱ラベル付きデータを用いたテキストエンコーダに視覚トークンを埋め込んだマルチステージトレーニングアルゴリズムを導入し,生成した画像テキストデータを用いたマルチモーダル表現機能を開発する。我々の実験では、VISTAは、ゼロショットと教師付き設定の両方において、様々なマルチモーダル検索タスクにおいて優れた性能を達成する。私たちのモデル、データ、ソースコードはhttps://github.com/FlagOpen/FlagEmbedding.comで公開されています。

関連論文リスト

ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。既存のCLIPベースのアプローチでは、イメージとテキストを独立して埋め込み、結果を融合する。本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文参考訳（メタデータ） (2025-03-01T03:29:02Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models [60.67899965748755]
両ビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダル大規模言語モデルであるLLaVA-Readを提案する。我々の研究は、ビジュアルテキスト理解は依然としてオープンな課題であり、将来のマルチモーダルシステムにとって効率的なビジュアルテキストエンコーダが不可欠であることを示唆している。
論文参考訳（メタデータ） (2024-07-27T05:53:37Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。学習を通してStrucTexTv3の知覚と理解能力を高める。提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文参考訳（メタデータ） (2024-05-31T16:55:04Z)
Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文参考訳（メタデータ） (2023-10-17T12:39:16Z)
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。 MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文参考訳（メタデータ） (2023-10-08T11:33:09Z)
Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。 PTUnifier という2つのタイプを統一する手法を提案する。まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文参考訳（メタデータ） (2023-02-17T15:43:42Z)
FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。 3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文参考訳（メタデータ） (2022-10-26T21:01:19Z)
ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文参考訳（メタデータ） (2022-10-04T16:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。