論文の概要: Text2Pic Swift: Enhancing Long-Text to Image Retrieval for Large-Scale
Libraries
- arxiv url: http://arxiv.org/abs/2402.15276v2
- Date: Wed, 28 Feb 2024 16:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:32:18.053181
- Title: Text2Pic Swift: Enhancing Long-Text to Image Retrieval for Large-Scale
Libraries
- Title(参考訳): Text2Pic Swift: 大規模ライブラリの長文検索と画像検索
- Authors: Zijun Long and Xuri Ge and Richard Mccreadie and Joemon Jose
- Abstract要約: テキストから画像への検索は,デジタルライブラリやeコマースプラットフォーム,マルチメディアデータベースなど,さまざまなアプリケーションにおいて重要な役割を担っている。
MLLM(Multimodal Large Language Models)の進歩にもかかわらず、大規模かつ多様であいまいな検索シナリオの適用性は、重要な計算要求によって制限されている。
本稿では,テキスト記述に対応する画像の効率的かつ堅牢な検索に適したText2Pic Swiftフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.4592277400656237
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-image retrieval plays a crucial role across various applications,
including digital libraries, e-commerce platforms, and multimedia databases, by
enabling the search for images using text queries. Despite the advancements in
Multimodal Large Language Models (MLLMs), which offer leading-edge performance,
their applicability in large-scale, varied, and ambiguous retrieval scenarios
is constrained by significant computational demands and the generation of
injective embeddings. This paper introduces the Text2Pic Swift framework,
tailored for efficient and robust retrieval of images corresponding to
extensive textual descriptions in sizable datasets. The framework employs a
two-tier approach: the initial Entity-based Ranking (ER) stage addresses the
ambiguity inherent in lengthy text queries through a
multiple-queries-to-multiple-targets strategy, effectively narrowing down
potential candidates for subsequent analysis. Following this, the Summary-based
Re-ranking (SR) stage further refines these selections based on concise query
summaries. Additionally, we present a novel Decoupling-BEiT-3 encoder,
specifically designed to tackle the challenges of ambiguous queries and to
facilitate both stages of the retrieval process, thereby significantly
improving computational efficiency via vector-based similarity assessments. Our
evaluation, conducted on the AToMiC dataset, demonstrates that Text2Pic Swift
outperforms current MLLMs by achieving up to an 11.06% increase in Recall@1000,
alongside reductions in training and retrieval durations by 68.75% and 99.79%,
respectively.
- Abstract(参考訳): テキスト検索は,デジタルライブラリや電子商取引プラットフォーム,マルチメディアデータベースなど,さまざまなアプリケーションにおいて重要な役割を担っている。
先進的な性能を提供するマルチモーダル大規模言語モデル(MLLM)の進歩にもかかわらず、大規模で多様であいまいな検索シナリオの適用性は、膨大な計算要求とインジェクティブ埋め込みの生成によって制限されている。
本稿では,膨大なデータセットのテキスト記述に対応する画像の効率的かつ堅牢な検索に適したText2Pic Swiftフレームワークを提案する。
最初のentity-based ranking (er)ステージは、長いテキストクエリに固有のあいまいさをマルチクエリからマルチプルターゲット戦略を通じて解決し、その後の分析のために潜在的な候補を効果的に絞り込みます。
これに続いて、概要に基づく再ランク付け(SR)ステージは、簡潔なクエリ要約に基づいてこれらの選択をさらに洗練する。
さらに,曖昧なクエリの課題に対処し,検索プロセスの両段階を容易にし,ベクトルに基づく類似度評価による計算効率を大幅に向上させる,新たなデカップリングbeit-3エンコーダを提案する。
AToMiCデータセットで実施した評価では、Text2Pic Swiftは、トレーニングと検索期間をそれぞれ68.75%、99.79%削減し、Recall@1000を最大11.06%増加させることで、現在のMLLMよりも優れたパフォーマンスを示している。
関連論文リスト
- mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text
Retrieval [85.28292877465353]
本稿では,高速画像テキスト検索のためのtextbfHierarchical textbfVision-textbfLanguage textbfPre-Trainingを提案する。
具体的には,粗いITRに対して異なる次元の表現を用いた新しい階層的検索対象を設計する。
論文 参考訳(メタデータ) (2022-05-24T14:32:57Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。