論文の概要: PRISM: Product Retrieval In Shopping Carts using Hybrid Matching
- arxiv url: http://arxiv.org/abs/2509.14985v1
- Date: Thu, 18 Sep 2025 14:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.262511
- Title: PRISM: Product Retrieval In Shopping Carts using Hybrid Matching
- Title(参考訳): PRISM:ハイブリッドマッチングによるショッピングカートの商品検索
- Authors: Arda Kabadayi, Senem Velipasalar, Jiajing Chen,
- Abstract要約: 小売店舗における商品検索のためのハイブリッド手法であるPRISMを提案する。
PRISMは視覚言語モデルベースとピクセルワイドマッチングアプローチを使用する。
提案するPRISMは,最先端画像検索手法を4.21%上回っている。
- 参考スコア(独自算出の注目度): 17.39545494939158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compared to traditional image retrieval tasks, product retrieval in retail settings is even more challenging. Products of the same type from different brands may have highly similar visual appearances, and the query image may be taken from an angle that differs significantly from view angles of the stored catalog images. Foundational models, such as CLIP and SigLIP, often struggle to distinguish these subtle but important local differences. Pixel-wise matching methods, on the other hand, are computationally expensive and incur prohibitively high matching times. In this paper, we propose a new, hybrid method, called PRISM, for product retrieval in retail settings by leveraging the advantages of both vision-language model-based and pixel-wise matching approaches. To provide both efficiency/speed and finegrained retrieval accuracy, PRISM consists of three stages: 1) A vision-language model (SigLIP) is employed first to retrieve the top 35 most semantically similar products from a fixed gallery, thereby narrowing the search space significantly; 2) a segmentation model (YOLO-E) is applied to eliminate background clutter; 3) fine-grained pixel-level matching is performed using LightGlue across the filtered candidates. This framework enables more accurate discrimination between products with high inter-class similarity by focusing on subtle visual cues often missed by global models. Experiments performed on the ABV dataset show that our proposed PRISM outperforms the state-of-the-art image retrieval methods by 4.21% in top-1 accuracy while still remaining within the bounds of real-time processing for practical retail deployments.
- Abstract(参考訳): 従来の画像検索のタスクと比べて、小売店舗での商品検索はもっと難しい。
異なるブランドの同種の製品は、非常に類似した視覚的外観を持ち、クエリ画像は、保存されたカタログ画像の視角と大きく異なる角度から取ることができる。
CLIPやSigLIPのような基礎的なモデルは、これらの微妙だが重要な局所的な違いを区別するのに苦労することが多い。
一方、ピクセルワイズマッチング法は計算コストが高く、不当に高いマッチング時間である。
本稿では,視覚言語モデルと画素ワイドマッチングの両アプローチの利点を生かして,小売店舗における商品検索のためのハイブリッド手法であるPRISMを提案する。
PRISMは効率・速度・微粒化の精度を両立させるため、3段階からなる。
1) 視覚言語モデル(SigLIP)を用いて、まず、固定ギャラリーから最もセマンティックに類似した製品のトップ35を検索し、検索空間を著しく狭める。
2) セグメンテーションモデル(YOLO-E)を適用して,背景クラッタを除去する。
3) フィルタされた候補に対してLightGlueを用いて, きめ細かい画素レベルのマッチングを行う。
このフレームワークは、グローバルモデルでしばしば見逃される微妙な視覚的手がかりに焦点を当てることで、クラス間類似度の高い製品間のより正確な識別を可能にする。
ABVデータセットを用いて行った実験により,提案したPRISMは,実店舗展開におけるリアルタイム処理の限界内に留まりながら,最先端画像検索手法を4.21%上回る性能を示した。
関連論文リスト
- Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。
T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。
MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文 参考訳(メタデータ) (2025-06-12T11:09:49Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Automated Virtual Product Placement and Assessment in Images using Diffusion Models [1.63075356372232]
本稿では,新しい3段階完全自動化VPPシステムを提案する。
第1段階では、言語誘導画像セグメンテーションモデルにより、製品塗布のための画像内の最適な領域を特定する。
第2段階では、いくつかの製品イメージを微調整した安定拡散(SD)を使用して、以前に特定された候補領域に製品を塗布する。
最終段階では、低画質の画像を効果的に取り出すために設計された「アライメントモジュール」が導入されている。
論文 参考訳(メタデータ) (2024-05-02T09:44:13Z) - Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic Segmentation [36.992698016947486]
Open-vocabulary semantic segmentation (OVS)は、クラスラベルやキャプションによって指定された任意のカテゴリのイメージをセグメンテーションすることを目的としている。
過去のベストパフォーマンス手法は画像特徴とカテゴリラベルの誤一致に悩まされていた。
視覚基盤モデルに基づくOVSのための新しい関係認識型モーダルマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-30T06:29:59Z) - Pairwise Similarity Learning is SimPLE [104.14303849615496]
我々は、汎用的で重要な学習問題、ペアワイズ類似性学習(PSL)に焦点を当てる。
PSLは、オープンセットの顔認識、話者検証、画像検索、人物の再識別など、幅広い重要な応用を仮定する。
我々は、機能/プロキシの正規化も角マージンも必要としない、SimPLEと呼ばれる驚くほど単純なプロキシフリー手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T23:56:47Z) - Visually Similar Products Retrieval for Shopsy [0.0]
マルチタスク学習手法を用いて,リセラーコマースのためのビジュアル検索システムを設計する。
我々のモデルは属性分類、三重項ランク付け、変分オートエンコーダ(VAE)の3つの異なるタスクからなる。
論文 参考訳(メタデータ) (2022-10-10T10:59:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Devil's in the Details: Aligning Visual Clues for Conditional Embedding
in Person Re-Identification [94.77172127405846]
歩行者画像の詳細な情報をよりよく活用するための2つの重要な認識パターンを提案する。
CACE-Netは3つの公開データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-11T06:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。