論文の概要: Candidate Set Re-ranking for Composed Image Retrieval with Dual
Multi-modal Encoder
- arxiv url: http://arxiv.org/abs/2305.16304v1
- Date: Thu, 25 May 2023 17:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:13:28.336628
- Title: Candidate Set Re-ranking for Composed Image Retrieval with Dual
Multi-modal Encoder
- Title(参考訳): デュアルマルチモーダルエンコーダを用いた合成画像検索のための候補セット再ランク付け
- Authors: Zheyuan Liu, Weixuan Sun, Damien Teney, Stephen Gould
- Abstract要約: 合成画像検索は、参照画像とテキストペアからなる所定のマルチモーダルユーザクエリに最もよく一致する画像を見つけることを目的としている。
既存の方法では、コーパス全体へのイメージ埋め込みをプリコンプリートし、これらを、テスト時にクエリテキストによって修正された参照イメージ埋め込みと比較する。
両スキームの利点を2段階モデルで組み合わせることを提案する。
- 参考スコア(独自算出の注目度): 41.98974489047764
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Composed image retrieval aims to find an image that best matches a given
multi-modal user query consisting of a reference image and text pair. Existing
methods commonly pre-compute image embeddings over the entire corpus and
compare these to a reference image embedding modified by the query text at test
time. Such a pipeline is very efficient at test time since fast vector
distances can be used to evaluate candidates, but modifying the reference image
embedding guided only by a short textual description can be difficult,
especially independent of potential candidates. An alternative approach is to
allow interactions between the query and every possible candidate, i.e.,
reference-text-candidate triplets, and pick the best from the entire set.
Though this approach is more discriminative, for large-scale datasets the
computational cost is prohibitive since pre-computation of candidate embeddings
is no longer possible. We propose to combine the merits of both schemes using a
two-stage model. Our first stage adopts the conventional vector distancing
metric and performs a fast pruning among candidates. Meanwhile, our second
stage employs a dual-encoder architecture, which effectively attends to the
input triplet of reference-text-candidate and re-ranks the candidates. Both
stages utilize a vision-and-language pre-trained network, which has proven
beneficial for various downstream tasks. Our method consistently outperforms
state-of-the-art approaches on standard benchmarks for the task.
- Abstract(参考訳): 合成画像検索は、参照画像とテキストペアからなる所定のマルチモーダルユーザクエリに最もよく一致する画像を見つけることを目的としている。
既存の手法では、コーパス全体に画像埋め込みをプリコンプリートし、これらをテスト時にクエリテキストによって修正された参照画像埋め込みと比較する。
このようなパイプラインはテスト時に非常に効率的であり、高速なベクトル距離を使って候補を評価することができるが、短いテキスト記述のみでガイドされた参照画像の埋め込みを変更することは、特に候補とは無関係に難しい。
別のアプローチとして、クエリと可能なすべての候補、すなわち参照-テキスト-候補トリプレット間のインタラクションを許可し、セット全体からベストを選択する方法がある。
このアプローチはより差別的であるが、大規模データセットでは、候補埋め込みの事前計算がもはや不可能であるため、計算コストは禁じられている。
二段階モデルを用いて,両スキームのメリットを組み合わせることを提案する。
第1段階では, 従来のベクトル分散メトリックを採用し, 候補間の高速刈り取りを行う。
一方,第2段階では,参照テキスト候補の入力三重項に効果的に対応し,候補を再ランク付けするデュアルエンコーダアーキテクチャを採用している。
どちらの段階も視覚と言語による事前学習ネットワークを利用しており、様々な下流タスクに有益であることが証明されている。
我々の手法はタスクの標準ベンチマークにおける最先端のアプローチよりも一貫して優れている。
関連論文リスト
- DeepClean: Integrated Distortion Identification and Algorithm Selection for Rectifying Image Corruptions [1.8024397171920883]
画像歪みの自動分類と修正のための2段階逐次計画手法を提案する。
提案手法の利点は、入力画像に条件付けされた動的再構成と、推論時に未確認候補アルゴリズムの一般化である。
論文 参考訳(メタデータ) (2024-07-23T08:57:11Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Multi-scale 2D Representation Learning for weakly-supervised moment
retrieval [18.940164141627914]
弱教師付き映像モーメント検索のためのマルチスケール2次元表現学習法を提案する。
具体的には,まず時間スケール毎に2次元マップを構築し,候補間の時間依存性を捉える。
学習可能な畳み込みニューラルネットワークを用いて,各スケールマップからトップK候補を選択する。
論文 参考訳(メタデータ) (2021-11-04T10:48:37Z) - Exploring Dense Retrieval for Dialogue Response Selection [42.89426092886912]
本研究では,高密度検索モデルを用いて,大規模コーパスや非並列コーパスから直接適切な応答を選択する方法を提案する。
再ランク設定では、その単純さを考えると、その優位性はかなり驚きます。フルランク設定では、私たちは、そのような評価を最初に行うことを強調できます。
論文 参考訳(メタデータ) (2021-10-13T10:10:32Z) - UniCon: Unified Context Network for Robust Active Speaker Detection [111.90529347692723]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。
私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。
異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2021-08-05T13:25:44Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。