論文の概要: Text2Pic Swift: Enhancing Long-Text to Image Retrieval for Large-Scale
Libraries
- arxiv url: http://arxiv.org/abs/2402.15276v2
- Date: Wed, 28 Feb 2024 16:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:32:18.053181
- Title: Text2Pic Swift: Enhancing Long-Text to Image Retrieval for Large-Scale
Libraries
- Title(参考訳): Text2Pic Swift: 大規模ライブラリの長文検索と画像検索
- Authors: Zijun Long and Xuri Ge and Richard Mccreadie and Joemon Jose
- Abstract要約: テキストから画像への検索は,デジタルライブラリやeコマースプラットフォーム,マルチメディアデータベースなど,さまざまなアプリケーションにおいて重要な役割を担っている。
MLLM(Multimodal Large Language Models)の進歩にもかかわらず、大規模かつ多様であいまいな検索シナリオの適用性は、重要な計算要求によって制限されている。
本稿では,テキスト記述に対応する画像の効率的かつ堅牢な検索に適したText2Pic Swiftフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.4592277400656237
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image retrieval plays a crucial role across various applications,
including digital libraries, e-commerce platforms, and multimedia databases, by
enabling the search for images using text queries. Despite the advancements in
Multimodal Large Language Models (MLLMs), which offer leading-edge performance,
their applicability in large-scale, varied, and ambiguous retrieval scenarios
is constrained by significant computational demands and the generation of
injective embeddings. This paper introduces the Text2Pic Swift framework,
tailored for efficient and robust retrieval of images corresponding to
extensive textual descriptions in sizable datasets. The framework employs a
two-tier approach: the initial Entity-based Ranking (ER) stage addresses the
ambiguity inherent in lengthy text queries through a
multiple-queries-to-multiple-targets strategy, effectively narrowing down
potential candidates for subsequent analysis. Following this, the Summary-based
Re-ranking (SR) stage further refines these selections based on concise query
summaries. Additionally, we present a novel Decoupling-BEiT-3 encoder,
specifically designed to tackle the challenges of ambiguous queries and to
facilitate both stages of the retrieval process, thereby significantly
improving computational efficiency via vector-based similarity assessments. Our
evaluation, conducted on the AToMiC dataset, demonstrates that Text2Pic Swift
outperforms current MLLMs by achieving up to an 11.06% increase in Recall@1000,
alongside reductions in training and retrieval durations by 68.75% and 99.79%,
respectively.
- Abstract(参考訳): テキスト検索は,デジタルライブラリや電子商取引プラットフォーム,マルチメディアデータベースなど,さまざまなアプリケーションにおいて重要な役割を担っている。
先進的な性能を提供するマルチモーダル大規模言語モデル(MLLM)の進歩にもかかわらず、大規模で多様であいまいな検索シナリオの適用性は、膨大な計算要求とインジェクティブ埋め込みの生成によって制限されている。
本稿では,膨大なデータセットのテキスト記述に対応する画像の効率的かつ堅牢な検索に適したText2Pic Swiftフレームワークを提案する。
最初のentity-based ranking (er)ステージは、長いテキストクエリに固有のあいまいさをマルチクエリからマルチプルターゲット戦略を通じて解決し、その後の分析のために潜在的な候補を効果的に絞り込みます。
これに続いて、概要に基づく再ランク付け(SR)ステージは、簡潔なクエリ要約に基づいてこれらの選択をさらに洗練する。
さらに,曖昧なクエリの課題に対処し,検索プロセスの両段階を容易にし,ベクトルに基づく類似度評価による計算効率を大幅に向上させる,新たなデカップリングbeit-3エンコーダを提案する。
AToMiCデータセットで実施した評価では、Text2Pic Swiftは、トレーニングと検索期間をそれぞれ68.75%、99.79%削減し、Recall@1000を最大11.06%増加させることで、現在のMLLMよりも優れたパフォーマンスを示している。
関連論文リスト
- BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in
Autonomous Driving [16.500619629772945]
textBEV-CLIPは、テキストを入力として利用して対応するシーンを検索する、最初のマルチモーダルバード・アイビュー(BEV)検索手法である。
実験の結果,テキスト・ツー・BEV機能検索におけるNuScenesデータセットの精度は87.66%となった。
論文 参考訳(メタデータ) (2024-01-02T06:56:23Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale
Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。
本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。
重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。
我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-06T16:24:41Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Image Search with Text Feedback by Additive Attention Compositional
Learning [1.4395184780210915]
本稿では,深層ニューラルネットワークにシームレスに接続可能な付加的注意に基づく画像テキスト合成モジュールを提案する。
AACLは3つの大規模データセット(FashionIQ、Fashion200k、Shopping100k)で評価される
論文 参考訳(メタデータ) (2022-03-08T02:03:49Z) - Transformer Reasoning Network for Image-Text Matching and Retrieval [14.238818604272751]
マルチモーダルな大規模情報検索作業における画像テキストマッチングの問題点を考察する。
トランスフォーマー推論ネットワーク(TERN, Transformer Reasoning Network, TERN)は, 現代の関係認識型自己認識型トランスフォーマー(Transformer)のアーキテクチャである。
TERNは2つの異なるモダリティを別々に推論し、最終的な共通抽象概念空間を強制することができる。
論文 参考訳(メタデータ) (2020-04-20T09:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。