論文の概要: An Improved Deep Learning Approach For Product Recognition on Racks in
Retail Stores
- arxiv url: http://arxiv.org/abs/2202.13081v1
- Date: Sat, 26 Feb 2022 06:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 11:29:12.453858
- Title: An Improved Deep Learning Approach For Product Recognition on Racks in
Retail Stores
- Title(参考訳): 小売店における商品認識のための深層学習手法の改良
- Authors: Ankit Sinha, Soham Banerjee and Pratik Chattopadhyay
- Abstract要約: 小売店における自動製品認識は、コンピュータビジョンとパターン認識の領域における重要な現実世界のアプリケーションである。
我々は、Faster-RCNNベースのオブジェクトローカライザとResNet-18ベースのイメージエンコーダからなる2段階物体検出認識パイプラインを開発した。
各モデルは、より優れた予測のために適切なデータセットを使用して微調整され、各クエリイメージ上でデータ拡張が行われ、ResNet-18ベースの製品認識モデルを微調整するための広範なギャラリーセットが作成される。
- 参考スコア(独自算出の注目度): 2.470815298095903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated product recognition in retail stores is an important real-world
application in the domain of Computer Vision and Pattern Recognition. In this
paper, we consider the problem of automatically identifying the classes of the
products placed on racks in retail stores from an image of the rack and
information about the query/product images. We improve upon the existing
approaches in terms of effectiveness and memory requirement by developing a
two-stage object detection and recognition pipeline comprising of a
Faster-RCNN-based object localizer that detects the object regions in the rack
image and a ResNet-18-based image encoder that classifies the detected regions
into the appropriate classes. Each of the models is fine-tuned using
appropriate data sets for better prediction and data augmentation is performed
on each query image to prepare an extensive gallery set for fine-tuning the
ResNet-18-based product recognition model. This encoder is trained using a
triplet loss function following the strategy of online-hard-negative-mining for
improved prediction. The proposed models are lightweight and can be connected
in an end-to-end manner during deployment for automatically identifying each
product object placed in a rack image. Extensive experiments using Grozi-32k
and GP-180 data sets verify the effectiveness of the proposed model.
- Abstract(参考訳): 小売店舗における自動製品認識は、コンピュータビジョンとパターン認識の領域において重要な実世界応用である。
本稿では,小売店舗のラックに置かれている商品のクラスを,ラックの画像とクエリ/製品画像から自動的に識別する問題について考察する。
我々は、ラック画像中のオブジェクト領域を検出するFaster-RCNNベースのオブジェクトローカライザと、検出された領域を適切なクラスに分類するResNet-18ベースのイメージエンコーダからなる2段階オブジェクト検出認識パイプラインを開発することにより、既存のアプローチの有効性とメモリ要件の観点から改善する。
各モデルは、より優れた予測のために適切なデータセットを使用して微調整され、クエリイメージ毎にデータ拡張が行われ、ResNet-18ベースの製品認識モデルを微調整するための広範なギャラリーセットが作成される。
このエンコーダは、オンライン・ハード・ネガティブ・マイニングの戦略に従って三重項損失関数を用いてトレーニングし、予測を改善する。
提案するモデルは軽量で,デプロイ時にエンドツーエンドで接続可能で,ラックイメージに配置された各製品オブジェクトを自動的に識別する。
grozi-32kおよびgp-180データセットを用いた広範な実験により,提案モデルの有効性が検証された。
関連論文リスト
- Autoencoders with Intrinsic Dimension Constraints for Learning Low
Dimensional Image Representations [27.40298734517967]
本稿では,グローバルおよびローカルID制約の正規化をデータ表現の再構成に組み込んだ,オートエンコーダを用いた新しい深層表現学習手法を提案する。
このアプローチはデータセット全体の大域多様体構造を保存するだけでなく、各点の特徴写像の局所多様体構造も維持する。
論文 参考訳(メタデータ) (2023-04-16T03:43:08Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Uncertainty Aware Active Learning for Reconfiguration of Pre-trained
Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。
オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。
ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。
本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:14:10Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Unitail: Detecting, Reading, and Matching in Retail Scene [37.1516435926562]
製品に関する基本的な視覚的タスクのベンチマークであるUnited Retailデータセットを紹介します。
1.8Mの四角形のインスタンスで、Unitailは製品の外観をより良く調整するための検出データセットを提供する。
また、1454の製品カテゴリ、30kのテキストリージョン、21kの転写を含むギャラリースタイルのOCRデータセットも提供する。
論文 参考訳(メタデータ) (2022-04-01T09:06:48Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Adaptive Object Detection with Dual Multi-Label Prediction [78.69064917947624]
本稿では,適応オブジェクト検出のための新しいエンド・ツー・エンドの非教師付き深部ドメイン適応モデルを提案する。
モデルはマルチラベル予測を利用して、各画像内の対象カテゴリ情報を明らかにする。
本稿では,オブジェクト検出を支援するための予測整合正則化機構を提案する。
論文 参考訳(メタデータ) (2020-03-29T04:23:22Z) - Bag of Tricks for Retail Product Image Classification [0.0]
各種小売商品画像分類データセットの深層学習モデルの精度を高めるための様々な手法を提案する。
Local-Concepts-Accumulation (LCA)層と呼ばれる新しいニューラルネットワーク層は、複数のデータセット間で一貫したゲインを提供する。
小売商品の識別精度を高めるための他の方法として、Instagram-pretrained Convnet と Maximum Entropy があげられる。
論文 参考訳(メタデータ) (2020-01-12T20:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。