論文の概要: Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval
- arxiv url: http://arxiv.org/abs/2405.03190v1
- Date: Mon, 6 May 2024 06:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:45:09.771518
- Title: Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval
- Title(参考訳): パラフレーズ検索のためのデュアルエンコーダ視覚言語モデルの適用
- Authors: Jiacheng Cheng, Hijung Valentina Shin, Nuno Vasconcelos, Bryan Russell, Fabian Caba Heilbron,
- Abstract要約: モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 55.90407811819347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the recent years, the dual-encoder vision-language models (\eg CLIP) have achieved remarkable text-to-image retrieval performance. However, we discover that these models usually results in very different retrievals for a pair of paraphrased queries. Such behavior might render the retrieval system less predictable and lead to user frustration. In this work, we consider the task of paraphrased text-to-image retrieval where a model aims to return similar results given a pair of paraphrased queries. To start with, we collect a dataset of paraphrased image descriptions to facilitate quantitative evaluation for this task. We then hypothesize that the undesired behavior of existing dual-encoder model is due to their text towers which are trained on image-sentence pairs and lack the ability to capture the semantic similarity between paraphrased queries. To improve on this, we investigate multiple strategies for training a dual-encoder model starting from a language model pretrained on a large text corpus. Compared to public dual-encoder models such as CLIP and OpenCLIP, the model trained with our best adaptation strategy achieves a significantly higher ranking similarity for paraphrased queries while maintaining similar zero-shot classification and retrieval accuracy.
- Abstract(参考訳): 近年,デュアルエンコーダ・ビジョン言語モデル (\eg CLIP) は,テキスト・画像検索性能が著しく向上している。
しかし、これらのモデルは通常、一対のパラフレーズクエリに対して非常に異なる検索結果をもたらす。
このような振る舞いは、検索システムを予測しにくくし、ユーザのフラストレーションにつながる可能性がある。
そこで本研究では,一対のパラフレーズクエリを考慮し,モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト・画像検索の課題について考察する。
まず,このタスクの定量的評価を容易にするために,言い換えられた画像記述のデータセットを収集する。
次に、既存の二重エンコーダモデルの望ましくない振る舞いは、画像と文のペアに基づいて訓練され、パラフレーズクエリ間のセマンティックな類似性を捉える能力に欠けるテキストタワーによるものであると仮定する。
そこで本研究では,大規模なテキストコーパス上で事前学習した言語モデルから始まる,デュアルエンコーダモデルのトレーニング戦略について検討する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、同様のゼロショット分類と検索精度を維持しつつ、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
関連論文リスト
- Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning [21.04172981071809]
検索強化キャプションモデルSmallCapのロバスト性を解析した。
より多様な集合から抽出したキャプションを抽出してモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-06-04T12:41:54Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval [89.30660533051514]
クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
論文 参考訳(メタデータ) (2023-04-06T21:45:46Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Evaluating Contrastive Models for Instance-based Image Retrieval [6.393147386784114]
画像検索タスクにおけるコントラストモデルの評価を行う。
対照的な手法を用いてトレーニングされたモデルは、ImageNetラベルに基づいてトレーニングされたトレーニング済みベースラインとオンパー(およびパフォーマンス)を実行する。
論文 参考訳(メタデータ) (2021-04-30T12:05:23Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。