論文の概要: Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2409.14963v1
- Date: Mon, 23 Sep 2024 12:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 15:15:39.773281
- Title: Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いたゼロショットオブジェクト分類による細粒度小売商品識別の探索
- Authors: Anil Osman Tur, Alessandro Conti, Cigdem Beyan, Davide Boscaini, Roberto Larcher, Stefano Messelodi, Fabio Poiesi, Elisa Ricci,
- Abstract要約: スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
- 参考スコア(独自算出の注目度): 50.370043676415875
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In smart retail applications, the large number of products and their frequent turnover necessitate reliable zero-shot object classification methods. The zero-shot assumption is essential to avoid the need for re-training the classifier every time a new product is introduced into stock or an existing product undergoes rebranding. In this paper, we make three key contributions. Firstly, we introduce the MIMEX dataset, comprising 28 distinct product categories. Unlike existing datasets in the literature, MIMEX focuses on fine-grained product classification and includes a diverse range of retail products. Secondly, we benchmark the zero-shot object classification performance of state-of-the-art vision-language models (VLMs) on the proposed MIMEX dataset. Our experiments reveal that these models achieve unsatisfactory fine-grained classification performance, highlighting the need for specialized approaches. Lastly, we propose a novel ensemble approach that integrates embeddings from CLIP and DINOv2 with dimensionality reduction techniques to enhance classification performance. By combining these components, our ensemble approach outperforms VLMs, effectively capturing visual cues crucial for fine-grained product discrimination. Additionally, we introduce a class adaptation method that utilizes visual prototyping with limited samples in scenarios with scarce labeled data, addressing a critical need in retail environments where product variety frequently changes. To encourage further research into zero-shot object classification for smart retail applications, we will release both the MIMEX dataset and benchmark to the research community. Interested researchers can contact the authors for details on the terms and conditions of use. The code is available: https://github.com/AnilOsmanTur/Zero-shot-Retail-Product-Classification.
- Abstract(参考訳): スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
ゼロショットの仮定は、新しい製品が在庫に導入されたり、既存の製品が再ブランドされるたびに、分類器を再訓練する必要性を避けるために不可欠である。
本稿では,3つの重要な貢献を行う。
まず,28の異なる製品カテゴリからなるMIMEXデータセットを紹介する。
文献にある既存のデータセットとは異なり、MIMEXはきめ細かい製品分類に重点を置いており、多様な小売製品を含んでいる。
第2に、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
実験の結果,これらのモデルが不満足なきめ細かい分類性能を達成し,特殊なアプローチの必要性を浮き彫りにした。
最後に,CLIPとDINOv2の埋め込みと次元還元技術を統合し,分類性能を向上させる新しいアンサンブル手法を提案する。
これらの成分を組み合わせることで、当社のアンサンブルアプローチはVLMよりも優れており、きめ細かい製品識別に不可欠な視覚的手がかりを効果的に捉えることができる。
また,商品の多様性が頻繁に変化する小売環境における重要なニーズに対応するため,ラベル付きデータが少ないシナリオにおいて,限られたサンプルを用いた視覚的プロトタイピングを利用するクラス適応手法を提案する。
スマート小売アプリケーションにおけるゼロショットオブジェクト分類のさらなる研究を促進するため、MIMEXデータセットとベンチマークの両方を研究コミュニティにリリースする。
興味のある研究者は著者に、使用条件の詳細を問い合わせることができる。
コードは以下の通りである。 https://github.com/AnilOsmanTur/Zero-shot-Retail-Product-Classification。
関連論文リスト
- Text-Based Product Matching -- Semi-Supervised Clustering Approach [9.748519919202986]
本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。
実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
論文 参考訳(メタデータ) (2024-02-01T18:52:26Z) - Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。
室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文 参考訳(メタデータ) (2023-11-17T21:58:26Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - Retail-786k: a Large-Scale Dataset for Visual Entity Matching [0.0]
本稿では,視覚的実体マッチングのための大規模データセットについて紹介する。
合計で786kの注釈付き高解像度の製品イメージを3kのエンティティにグループ分けした18kの個別小売製品を含む。
提案した「視覚的実体マッチング」は,標準画像に基づく分類と検索アルゴリズムでは十分解決できない新しい学習問題を構成する。
論文 参考訳(メタデータ) (2023-09-29T11:58:26Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Represent Items by Items: An Enhanced Representation of the Target Item
for Recommendation [37.28220632871373]
アイテムベースの協調フィルタリング(ICF)は、レコメンダシステムやオンライン広告などの産業アプリケーションで広く利用されている。
最近のモデルは、注意メカニズムやディープニューラルネットワークなどの方法を使用して、ユーザー表現とスコアリング機能をより正確に学習します。
共起項目から関連する情報を蒸留する対象項目の表現の強化を提案する。
論文 参考訳(メタデータ) (2021-04-26T11:28:28Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。