論文の概要: VISTA: Vision Transformer enhanced by U-Net and Image Colorfulness Frame
Filtration for Automatic Retail Checkout
- arxiv url: http://arxiv.org/abs/2204.11024v1
- Date: Sat, 23 Apr 2022 08:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 07:21:33.161563
- Title: VISTA: Vision Transformer enhanced by U-Net and Image Colorfulness Frame
Filtration for Automatic Retail Checkout
- Title(参考訳): VISTA: 自動小売チェックアウトのためのU-Netと画像カラーフルネスフレームフィルタにより強化された視覚変換器
- Authors: Md. Istiak Hossain Shihab, Nazia Tasnim, Hasib Zunair, Labiba Kanij
Rupty and Nabeel Mohammed
- Abstract要約: ビデオシーケンスから個々のフレームをセグメント化し分類することを提案する。
セグメンテーション法は、統一された単一製品アイテムと手作業のセグメンテーションと、エントロピーマスキングからなる。
我々のベストシステムは、AIシティチャレンジ2022トラック4で3位を獲得し、F1スコアは0.4545である。
- 参考スコア(独自算出の注目度): 0.7250756081498245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-class product counting and recognition identifies product items from
images or videos for automated retail checkout. The task is challenging due to
the real-world scenario of occlusions where product items overlap, fast
movement in the conveyor belt, large similarity in overall appearance of the
items being scanned, novel products, and the negative impact of misidentifying
items. Further, there is a domain bias between training and test sets,
specifically, the provided training dataset consists of synthetic images and
the test set videos consist of foreign objects such as hands and tray. To
address these aforementioned issues, we propose to segment and classify
individual frames from a video sequence. The segmentation method consists of a
unified single product item- and hand-segmentation followed by entropy masking
to address the domain bias problem. The multi-class classification method is
based on Vision Transformers (ViT). To identify the frames with target objects,
we utilize several image processing methods and propose a custom metric to
discard frames not having any product items. Combining all these mechanisms,
our best system achieves 3rd place in the AI City Challenge 2022 Track 4 with
an F1 score of 0.4545. Code will be available at
- Abstract(参考訳): マルチクラスの製品カウントと認識は、自動小売チェックアウトのために画像やビデオから製品アイテムを識別する。
この課題は、商品が重なり合うという現実世界のシナリオ、コンベアベルトの速い動き、スキャンされた商品の全体的な外観における大きな類似性、新しい商品、誤識別アイテムのネガティブな影響により、課題である。
また、トレーニングセットとテストセットとの間には、ドメインバイアスがあり、特に、提供されたトレーニングデータセットは、合成画像と、テストセットビデオは、手やトレイなどの外部オブジェクトからなる。
上記の課題に対処するため,ビデオシーケンスから個々のフレームを分割・分類する手法を提案する。
セグメンテーション方法は、統一された単一製品アイテムとハンドセグメンテーションと、ドメインバイアス問題に対処するエントロピーマスキングからなる。
マルチクラス分類法は視覚変換器(ViT)に基づく。
対象オブジェクトとフレームを識別するために,複数の画像処理手法を用いて,製品項目を持たないフレームを破棄するカスタムメトリックを提案する。
これらすべての機構を組み合わせることで,ai city challenge 2022 track 4のf1スコア0.4545で3位となった。
コードはすぐに手に入る
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - STOW: Discrete-Frame Segmentation and Tracking of Unseen Objects for
Warehouse Picking Robots [41.017649190833076]
本稿では,変圧器モジュールとともに離散フレームにおける関節分割と追跡のための新しいパラダイムを提案する。
実験の結果,本手法は近年の手法よりも著しく優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-04T06:52:38Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: TREK-150 Single
Object Tracking [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16と8の2つの特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
設計の有効性の証明として,EPIC-KITCHENS TREK-150 Object Tracking Challengeで1位を獲得した。
論文 参考訳(メタデータ) (2023-07-05T03:50:58Z) - Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文 参考訳(メタデータ) (2022-06-26T23:38:42Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Semi-supervised and Deep learning Frameworks for Video Classification
and Key-frame Identification [1.2335698325757494]
本稿では,シーンのシーンを自動的に分類する半教師付きアプローチと,シーン理解タスクのためのフィルタフレームを提案する。
提案するフレームワークは、知覚駆動システムの自動トレーニングのために、追加のビデオデータストリームに拡張することができる。
論文 参考訳(メタデータ) (2022-03-25T05:45:18Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。