論文の概要: VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale
Text-to-Image Search
- arxiv url: http://arxiv.org/abs/2101.00265v1
- Date: Fri, 1 Jan 2021 16:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:17:04.690228
- Title: VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale
Text-to-Image Search
- Title(参考訳): VisualSparta: 大規模テキスト画像検索のためのスパーストランスフォーマーフラグメントレベルマッチング
- Authors: Xiaopeng Lu, Tiancheng Zhao, Kyusong Lee
- Abstract要約: 我々は VisualSparta が MSCOCO と Flickr30K の以前のスケーラブルなメソッドを全て上回ることができることを示した。
VisualSpartaは、非常に大きなデータセットをリアルタイムに検索できるトランスフォーマーベースの最初のテキスト画像検索モデルである。
- 参考スコア(独自算出の注目度): 17.037882881652617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image retrieval is an essential task in multi-modal information
retrieval, i.e. retrieving relevant images from a large and unlabelled image
dataset given textual queries. In this paper, we propose VisualSparta, a novel
text-to-image retrieval model that shows substantial improvement over existing
models on both accuracy and efficiency. We show that VisualSparta is capable of
outperforming all previous scalable methods in MSCOCO and Flickr30K. It also
shows substantial retrieving speed advantages, i.e. for an index with 1 million
images, VisualSparta gets over 391x speed up compared to standard vector
search. Experiments show that this speed advantage even gets bigger for larger
datasets because VisualSparta can be efficiently implemented as an inverted
index. To the best of our knowledge, VisualSparta is the first
transformer-based text-to-image retrieval model that can achieve real-time
searching for very large dataset, with significant accuracy improvement
compared to previous state-of-the-art methods.
- Abstract(参考訳): テキストから画像への検索は,マルチモーダル情報検索において不可欠な課題である。
テキストクエリによって、大きくてラベルのない画像データセットから関連画像を取得する。
本稿では,既存のモデルよりも精度と効率の両面で大幅に改善したテキストから画像への新たな検索モデル visualsparta を提案する。
我々は visualsparta が mscoco と flickr30k で従来のスケーラブルな手法を上回ることができることを示した。
また、速度が大幅に向上している。
100万イメージのインデックスの場合、VisualSpartaは標準的なベクターサーチに比べて391倍高速になる。
実験によれば、visualspartaは逆インデックスとして効率的に実装できるため、大きなデータセットではこのスピードの利点が大きくなる。
私たちの知る限りでは、VisualSpartaはトランスフォーマーベースのテキスト画像検索モデルとしては初めてのもので、非常に大きなデータセットをリアルタイムに検索できる。
関連論文リスト
- Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models [2.3301643766310374]
視覚的プロンプトをサポートするマルチモーダル大言語モデル(M-LLM)を利用することで,画像の特徴を抽出し,テキストデータに変換する。
従来の視覚言語モデルを用いた手法と比較して,画像検索手法の精度とリコール性能が優れていることを示す。
また,検索クエリにキーワードを反復的に組み込むことにより,検索性能が向上することを示した。
論文 参考訳(メタデータ) (2024-08-29T06:54:03Z) - CLIP-Branches: Interactive Fine-Tuning for Text-Image Retrieval [2.381261552604303]
CLIPアーキテクチャ上に構築された新しいテキストイメージ検索エンジンであるCLIP-Branchesを紹介する。
本手法は,インタラクティブな微調整フェーズを組み込むことにより,従来のテキスト画像検索エンジンを強化する。
この結果から, 微調整により, 検索結果の関連性や精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-19T08:15:10Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text
Retrieval [85.28292877465353]
本稿では,高速画像テキスト検索のためのtextbfHierarchical textbfVision-textbfLanguage textbfPre-Trainingを提案する。
具体的には,粗いITRに対して異なる次元の表現を用いた新しい階層的検索対象を設計する。
論文 参考訳(メタデータ) (2022-05-24T14:32:57Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。