Fugu-MT 論文翻訳(概要): An Improved Deep Learning Approach For Product Recognition on Racks in Retail Stores

論文の概要: An Improved Deep Learning Approach For Product Recognition on Racks in Retail Stores

arxiv url: http://arxiv.org/abs/2202.13081v1
Date: Sat, 26 Feb 2022 06:51:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-03 11:29:12.453858
Title: An Improved Deep Learning Approach For Product Recognition on Racks in Retail Stores
Title（参考訳）: 小売店における商品認識のための深層学習手法の改良
Authors: Ankit Sinha, Soham Banerjee and Pratik Chattopadhyay
Abstract要約: 小売店における自動製品認識は、コンピュータビジョンとパターン認識の領域における重要な現実世界のアプリケーションである。我々は、Faster-RCNNベースのオブジェクトローカライザとResNet-18ベースのイメージエンコーダからなる2段階物体検出認識パイプラインを開発した。各モデルは、より優れた予測のために適切なデータセットを使用して微調整され、各クエリイメージ上でデータ拡張が行われ、ResNet-18ベースの製品認識モデルを微調整するための広範なギャラリーセットが作成される。
参考スコア（独自算出の注目度）: 2.470815298095903
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated product recognition in retail stores is an important real-world application in the domain of Computer Vision and Pattern Recognition. In this paper, we consider the problem of automatically identifying the classes of the products placed on racks in retail stores from an image of the rack and information about the query/product images. We improve upon the existing approaches in terms of effectiveness and memory requirement by developing a two-stage object detection and recognition pipeline comprising of a Faster-RCNN-based object localizer that detects the object regions in the rack image and a ResNet-18-based image encoder that classifies the detected regions into the appropriate classes. Each of the models is fine-tuned using appropriate data sets for better prediction and data augmentation is performed on each query image to prepare an extensive gallery set for fine-tuning the ResNet-18-based product recognition model. This encoder is trained using a triplet loss function following the strategy of online-hard-negative-mining for improved prediction. The proposed models are lightweight and can be connected in an end-to-end manner during deployment for automatically identifying each product object placed in a rack image. Extensive experiments using Grozi-32k and GP-180 data sets verify the effectiveness of the proposed model.
Abstract（参考訳）: 小売店舗における自動製品認識は、コンピュータビジョンとパターン認識の領域において重要な実世界応用である。本稿では,小売店舗のラックに置かれている商品のクラスを,ラックの画像とクエリ/製品画像から自動的に識別する問題について考察する。我々は、ラック画像中のオブジェクト領域を検出するFaster-RCNNベースのオブジェクトローカライザと、検出された領域を適切なクラスに分類するResNet-18ベースのイメージエンコーダからなる2段階オブジェクト検出認識パイプラインを開発することにより、既存のアプローチの有効性とメモリ要件の観点から改善する。各モデルは、より優れた予測のために適切なデータセットを使用して微調整され、クエリイメージ毎にデータ拡張が行われ、ResNet-18ベースの製品認識モデルを微調整するための広範なギャラリーセットが作成される。このエンコーダは、オンライン・ハード・ネガティブ・マイニングの戦略に従って三重項損失関数を用いてトレーニングし、予測を改善する。提案するモデルは軽量で,デプロイ時にエンドツーエンドで接続可能で,ラックイメージに配置された各製品オブジェクトを自動的に識別する。 grozi-32kおよびgp-180データセットを用いた広範な実験により,提案モデルの有効性が検証された。

関連論文リスト

Image Quality Enhancement and Detection of Small and Dense Objects in Industrial Recycling Processes [0.11726720776908518]
本稿では,小型で高密度で重なり合う物体の検出と,ノイズの多い画像の品質向上という2つの課題に取り組む。教師付きディープラーニングに基づく手法を評価する。また,ノイズの多い産業環境における画像品質向上のためのディープラーニングモデルについても検討した。
論文参考訳（メタデータ） (2025-09-01T10:14:13Z)
Applications and Effect Evaluation of Generative Adversarial Networks in Semi-Supervised Learning [4.2547679858666285]
我々はGAN(Generative Adrial Networks)に基づく半教師付き画像分類モデルを構築した。我々は,制限付きラベル付きデータと大量の非ラベル付きデータの有効利用を実現し,画像生成の品質と分類精度を向上させるとともに,複雑な環境における画像認識のタスクに有効なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-26T05:08:16Z)
Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文参考訳（メタデータ） (2024-09-23T12:28:40Z)
Autoencoders with Intrinsic Dimension Constraints for Learning Low Dimensional Image Representations [27.40298734517967]
本稿では,グローバルおよびローカルID制約の正規化をデータ表現の再構成に組み込んだ,オートエンコーダを用いた新しい深層表現学習手法を提案する。このアプローチはデータセット全体の大域多様体構造を保存するだけでなく、各点の特徴写像の局所多様体構造も維持する。
論文参考訳（メタデータ） (2023-04-16T03:43:08Z)
Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文参考訳（メタデータ） (2023-04-11T12:12:05Z)
Uncertainty Aware Active Learning for Reconfiguration of Pre-trained Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-22T17:14:10Z)
Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。 REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2023-01-17T18:59:06Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文参考訳（メタデータ） (2021-02-16T17:58:57Z)
Adaptive Object Detection with Dual Multi-Label Prediction [78.69064917947624]
本稿では,適応オブジェクト検出のための新しいエンド・ツー・エンドの非教師付き深部ドメイン適応モデルを提案する。モデルはマルチラベル予測を利用して、各画像内の対象カテゴリ情報を明らかにする。本稿では,オブジェクト検出を支援するための予測整合正則化機構を提案する。
論文参考訳（メタデータ） (2020-03-29T04:23:22Z)
Bag of Tricks for Retail Product Image Classification [0.0]
各種小売商品画像分類データセットの深層学習モデルの精度を高めるための様々な手法を提案する。 Local-Concepts-Accumulation (LCA)層と呼ばれる新しいニューラルネットワーク層は、複数のデータセット間で一貫したゲインを提供する。小売商品の識別精度を高めるための他の方法として、Instagram-pretrained Convnet と Maximum Entropy があげられる。
論文参考訳（メタデータ） (2020-01-12T20:20:07Z)
Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文参考訳（メタデータ） (2019-02-18T16:15:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。