論文の概要: Unitail: Detecting, Reading, and Matching in Retail Scene
- arxiv url: http://arxiv.org/abs/2204.00298v1
- Date: Fri, 1 Apr 2022 09:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 21:04:52.971588
- Title: Unitail: Detecting, Reading, and Matching in Retail Scene
- Title(参考訳): Unitail: 小売シーンにおける検出・読解・マッチング
- Authors: Fangyi Chen, Han Zhang, Zaiwang Li, Jiachen Dou, Shentong Mo, Hao
Chen, Yongxin Zhang, Uzair Ahmed, Chenchen Zhu, Marios Savvides
- Abstract要約: 製品に関する基本的な視覚的タスクのベンチマークであるUnited Retailデータセットを紹介します。
1.8Mの四角形のインスタンスで、Unitailは製品の外観をより良く調整するための検出データセットを提供する。
また、1454の製品カテゴリ、30kのテキストリージョン、21kの転写を含むギャラリースタイルのOCRデータセットも提供する。
- 参考スコア(独自算出の注目度): 37.1516435926562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To make full use of computer vision technology in stores, it is required to
consider the actual needs that fit the characteristics of the retail scene.
Pursuing this goal, we introduce the United Retail Datasets (Unitail), a
large-scale benchmark of basic visual tasks on products that challenges
algorithms for detecting, reading, and matching. With 1.8M quadrilateral-shaped
instances annotated, the Unitail offers a detection dataset to align product
appearance better. Furthermore, it provides a gallery-style OCR dataset
containing 1454 product categories, 30k text regions, and 21k transcriptions to
enable robust reading on products and motivate enhanced product matching.
Besides benchmarking the datasets using various state-of-the-arts, we customize
a new detector for product detection and provide a simple OCR-based matching
solution that verifies its effectiveness.
- Abstract(参考訳): 店舗におけるコンピュータビジョン技術を完全に活用するには,小売シーンの特徴に適合する実際のニーズを検討する必要がある。
この目標を追求したunited retail datasets(unitail)は、検出、読み取り、マッチングのアルゴリズムに挑戦する製品の基本ビジュアルタスクの大規模ベンチマークである。
1.8mの四角形インスタンスがアノテーション付きで、unitailは商品の外観をよりよく整えるための検出データセットを提供する。
さらに、1454の製品カテゴリ、30kのテキストリージョン、21kの転写を含むギャラリースタイルのOCRデータセットを提供し、製品の堅牢な読み込みを可能にし、製品マッチングを動機付ける。
さまざまな最先端技術を用いたデータセットのベンチマークに加えて、製品検出のための新しい検出器をカスタマイズし、その有効性を検証するシンプルなOCRベースのマッチングソリューションを提供する。
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - Text-Based Product Matching -- Semi-Supervised Clustering Approach [9.748519919202986]
本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。
実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
論文 参考訳(メタデータ) (2024-02-01T18:52:26Z) - Overview of the TREC 2023 Product Product Search Track [70.56592126043546]
今年はTREC製品サーチトラックの最初の年だ。
焦点は再利用可能なコレクションの作成であった。
我々は、コンテキストメタデータを含む新しい製品検索コーパスを活用している。
論文 参考訳(メタデータ) (2023-11-14T02:25:18Z) - Retail-786k: a Large-Scale Dataset for Visual Entity Matching [0.0]
本稿では,視覚的実体マッチングのための大規模データセットについて紹介する。
合計で786kの注釈付き高解像度の製品イメージを3kのエンティティにグループ分けした18kの個別小売製品を含む。
提案した「視覚的実体マッチング」は,標準画像に基づく分類と検索アルゴリズムでは十分解決できない新しい学習問題を構成する。
論文 参考訳(メタデータ) (2023-09-29T11:58:26Z) - Turning a CLIP Model into a Scene Text Spotter [73.63953542526917]
我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。
このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。
FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
論文 参考訳(メタデータ) (2023-08-21T01:25:48Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文 参考訳(メタデータ) (2023-05-12T14:11:47Z) - An Improved Deep Learning Approach For Product Recognition on Racks in
Retail Stores [2.470815298095903]
小売店における自動製品認識は、コンピュータビジョンとパターン認識の領域における重要な現実世界のアプリケーションである。
我々は、Faster-RCNNベースのオブジェクトローカライザとResNet-18ベースのイメージエンコーダからなる2段階物体検出認識パイプラインを開発した。
各モデルは、より優れた予測のために適切なデータセットを使用して微調整され、各クエリイメージ上でデータ拡張が行われ、ResNet-18ベースの製品認識モデルを微調整するための広範なギャラリーセットが作成される。
論文 参考訳(メタデータ) (2022-02-26T06:51:36Z) - Tiny Object Tracking: A Large-scale Dataset and A Baseline [40.93697515531104]
大規模なビデオデータセットを作成し、合計217Kフレームの434のシーケンスを含む。
データ作成において、幅広い視点とシーンの複雑さをカバーするため、12の課題属性を考慮に入れます。
統合されたフレームワークで3段階の知識蒸留を行うMKDNet(Multilevel Knowledge Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-02-11T15:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。