論文の概要: RetailKLIP : Finetuning OpenCLIP backbone using metric learning on a
single GPU for Zero-shot retail product image classification
- arxiv url: http://arxiv.org/abs/2312.10282v2
- Date: Sun, 14 Jan 2024 22:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 00:13:22.072111
- Title: RetailKLIP : Finetuning OpenCLIP backbone using metric learning on a
single GPU for Zero-shot retail product image classification
- Title(参考訳): RetailKLIP : ゼロショット製品画像分類のための単一のGPUを用いたメトリック学習によるOpenCLIPバックボーンの微細化
- Authors: Muktabh Mayank Srivastava
- Abstract要約: 本稿では,CLIPモデルの視覚エンコーダの微細化について提案する。
最寄りの近隣の分類では、新製品の漸進的な訓練は必要とせず、リソースと待ち時間を節約できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retail product or packaged grocery goods images need to classified in various
computer vision applications like self checkout stores, supply chain automation
and retail execution evaluation. Previous works explore ways to finetune deep
models for this purpose. But because of the fact that finetuning a large model
or even linear layer for a pretrained backbone requires to run at least a few
epochs of gradient descent for every new retail product added in classification
range, frequent retrainings are needed in a real world scenario. In this work,
we propose finetuning the vision encoder of a CLIP model in a way that its
embeddings can be easily used for nearest neighbor based classification, while
also getting accuracy close to or exceeding full finetuning. A nearest neighbor
based classifier needs no incremental training for new products, thus saving
resources and wait time.
- Abstract(参考訳): 小売商品やパッケージ商品の画像は、セルフチェックアウトストア、サプライチェーン自動化、小売実行評価など、さまざまなコンピュータビジョンアプリケーションで分類する必要がある。
これまでの研究は、この目的のために深いモデルを微調整する方法を探っている。
しかし、事前訓練されたバックボーン用の大型モデルやリニアレイヤーを微調整する場合、分類範囲に追加された新しい小売商品ごとに、少なくとも数エポックな勾配勾配を必要とするため、現実のシナリオでは頻繁なリトレーニングが必要である。
本研究では,クリップモデルの視覚エンコーダを,その埋め込みを最寄りの近傍の分類に容易に利用できるように微調整すると同時に,完全な微調整に近い精度を得る手法を提案する。
最寄りの隣り合う分類器は、新製品の漸進的な訓練を必要とせず、リソースと待ち時間を節約できる。
関連論文リスト
- Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning [86.15009879251386]
概念ボトルネックモデル(CBM)を用いた新しいアーキテクチャと説明可能な分類法を提案する。
CBMには、さらなる概念のセットが必要である。
CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-04-04T09:43:43Z) - Image-free Classifier Injection for Zero-Shot Classification [72.66409483088995]
ゼロショット学習モデルは、訓練中に見られなかったクラスからのサンプルのイメージ分類において顕著な結果が得られる。
我々は,画像データを用いることなく,ゼロショット分類機能を備えた事前学習モデルの装備を目指す。
提案したイメージフリーインジェクション・ウィズ・セマンティックス (ICIS) でこれを実現する。
論文 参考訳(メタデータ) (2023-08-21T09:56:48Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Using Contrastive Learning and Pseudolabels to learn representations for
Retail Product Image Classification [0.0]
本研究では,Convnetのバックボーン全体を微調整して商品イメージの分類を行うために,コントラスト学習と擬似ラベルに基づく雑音学習を用いて,精度の高い表現を学習する。
論文 参考訳(メタデータ) (2021-10-07T17:29:05Z) - Half-Real Half-Fake Distillation for Class-Incremental Semantic
Segmentation [84.1985497426083]
畳み込みニューラルネットワークは漸進的な学習に不適である。
新しいクラスは利用できるが、初期トレーニングデータは保持されない。
訓練されたセグメンテーションネットワークを「反転」して、ランダムノイズから始まる入力画像の合成を試みる。
論文 参考訳(メタデータ) (2021-04-02T03:47:16Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - Move-to-Data: A new Continual Learning approach with Deep CNNs,
Application for image-class recognition [0.0]
トレーニング記録フェーズ」でモデルを事前トレーニングし、新しいデータに調整する必要がある。
本稿では,ニューラルネットワークの終端における高速連続学習層を提案する。
論文 参考訳(メタデータ) (2020-06-12T13:04:58Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Novelty-Prepared Few-Shot Classification [24.42397780877619]
本稿では,自己補足型ソフトマックス・ロス(SSL)と呼ばれる新規な補足型損失関数を,数ショットの分類に使用することを提案する。
CUB-200-2011とmini-ImageNetデータセットの実験では、SSLが最先端の性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2020-03-01T14:44:29Z) - Bag of Tricks for Retail Product Image Classification [0.0]
各種小売商品画像分類データセットの深層学習モデルの精度を高めるための様々な手法を提案する。
Local-Concepts-Accumulation (LCA)層と呼ばれる新しいニューラルネットワーク層は、複数のデータセット間で一貫したゲインを提供する。
小売商品の識別精度を高めるための他の方法として、Instagram-pretrained Convnet と Maximum Entropy があげられる。
論文 参考訳(メタデータ) (2020-01-12T20:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。