論文の概要: Bringing Multimodality to Amazon Visual Search System
- arxiv url: http://arxiv.org/abs/2412.13364v1
- Date: Tue, 17 Dec 2024 22:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:46:11.418786
- Title: Bringing Multimodality to Amazon Visual Search System
- Title(参考訳): Amazonビジュアルサーチシステムにマルチモーダリティをもたらす
- Authors: Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua,
- Abstract要約: 純粋な画像と画像のマッチングは、局所的な視覚パターンとのマッチングによって生じる偽陽性に悩まされることを示す。
具体的には、深層学習に画像テキストアライメントの損失を付加する。
この変化が画像マッチング問題に対する画像の大幅な改善につながることを示す。
- 参考スコア(独自算出の注目度): 12.029571955133418
- License:
- Abstract: Image to image matching has been well studied in the computer vision community. Previous studies mainly focus on training a deep metric learning model matching visual patterns between the query image and gallery images. In this study, we show that pure image-to-image matching suffers from false positives caused by matching to local visual patterns. To alleviate this issue, we propose to leverage recent advances in vision-language pretraining research. Specifically, we introduce additional image-text alignment losses into deep metric learning, which serve as constraints to the image-to-image matching loss. With additional alignments between the text (e.g., product title) and image pairs, the model can learn concepts from both modalities explicitly, which avoids matching low-level visual features. We progressively develop two variants, a 3-tower and a 4-tower model, where the latter takes one more short text query input. Through extensive experiments, we show that this change leads to a substantial improvement to the image to image matching problem. We further leveraged this model for multimodal search, which takes both image and reformulation text queries to improve search quality. Both offline and online experiments show strong improvements on the main metrics. Specifically, we see 4.95% relative improvement on image matching click through rate with the 3-tower model and 1.13% further improvement from the 4-tower model.
- Abstract(参考訳): 画像と画像のマッチングはコンピュータビジョンコミュニティでよく研究されている。
これまでの研究は主に、クエリ画像とギャラリー画像の視覚パターンにマッチする深度メトリック学習モデルのトレーニングに重点を置いてきた。
本研究では,純粋な画像と画像のマッチングが,局所的な視覚パターンとのマッチングに起因する偽陽性に悩まされていることを示す。
この問題を軽減するために,視覚言語事前学習研究の最近の進歩を活用することを提案する。
具体的には、画像と画像のマッチング損失の制約となる深層学習に、画像テキストのアライメント損失を付加する。
テキスト(例:製品タイトル)とイメージペアの間に追加のアライメントを加えることで、モデルはモダリティの両方から概念を明示的に学習し、低レベルな視覚的特徴のマッチングを避けることができる。
我々は,3towerモデルと4towerモデルという2つの変種を段階的に開発する。
広範にわたる実験により,この変化は画像から画像マッチング問題への大幅な改善をもたらすことが示された。
さらに,このモデルをマルチモーダル検索に利用し,検索品質を向上させるために,画像検索とリフォームテキストクエリを併用した。
オフラインとオンラインの両方の実験では、主要なメトリクスが大幅に改善されている。
具体的には、3-towerモデルによる画像マッチングクリックスルー率の4.95%改善と、4-towerモデルによる1.13%改善を見出した。
関連論文リスト
- FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - A Triplet-loss Dilated Residual Network for High-Resolution
Representation Learning in Image Retrieval [0.0]
ローカライゼーションなどのいくつかのアプリケーションでは、画像検索が最初のステップとして使用される。
本論文では,トレーニング可能なパラメータが少ない,単純かつ効率的な画像検索システムを提案する。
提案手法は三重項損失を有する拡張残差畳み込みニューラルネットワークの利点である。
論文 参考訳(メタデータ) (2023-03-15T07:01:44Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Will Multi-modal Data Improves Few-shot Learning? [1.0742675209112622]
画像特徴とテキスト特徴を組み合わせた4種類の融合法を提案する。
注意に基づく融合法が最も有効であり、分類精度を30%程度向上させる。
論文 参考訳(メタデータ) (2021-07-25T17:34:44Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。