論文の概要: Detecting and Counting Pistachios based on Deep Learning
- arxiv url: http://arxiv.org/abs/2005.03990v4
- Date: Mon, 3 May 2021 21:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 12:23:57.738590
- Title: Detecting and Counting Pistachios based on Deep Learning
- Title(参考訳): 深層学習に基づくピスタチオの検出と計数
- Authors: Mohammad Rahimzadeh, Abolfazl Attar
- Abstract要約: 本稿では,異なる種類のピスタチオをコンピュータビジョンでカウントするシステムを提案する。
167秒の動画と3927のラベル付きピスタチオを含む,新しいピスタチオのデータセットを導入,共有しました。
我々のモデルはピスタチオを画像ではなくビデオに数えている。他の多くの作品とは異なり、我々のモデルはピスタチオを画像ではなくビデオに数えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pistachios are nutritious nuts that are sorted based on the shape of their
shell into two categories: Open-mouth and Closed-mouth. The open-mouth
pistachios are higher in price, value, and demand than the closed-mouth
pistachios. Because of these differences, it is considerable for production
companies to precisely count the number of each kind. This paper aims to
propose a new system for counting the different types of pistachios with
computer vision. We have introduced and shared a new dataset of pistachios,
including six videos with a total length of 167 seconds and 3927 labeled
pistachios. Unlike many other works, our model counts pistachios in videos, not
images. Counting objects in videos need assigning each object between the video
frames so that each object be counted once. The main two challenges in our work
are the existence of pistachios' occlusion and deformation of pistachios in
different frames because open-mouth pistachios that move and roll on the
transportation line may appear as closed-mouth in some frames and open-mouth in
other frames. Our novel model first is trained on the RetinaNet object detector
network using our dataset to detect different types of pistachios in video
frames. After gathering the detections, we apply them to a new counter
algorithm based on a new tracker to assign pistachios in consecutive frames
with high accuracy. Our model is able to assign pistachios that turn and change
their appearance (e.g., open-mouth pistachios that look closed-mouth) to each
other so does not count them incorrectly. Our algorithm performs very fast and
achieves good counting results. The computed accuracy of our algorithm on six
videos (9486 frames) is 94.75%.
- Abstract(参考訳): ピスタキオス(Pistachios)は、貝殻の形状に基づいて、オープンマウスとクローズドマウスの2つのカテゴリに分類される栄養豊富なナッツである。
オープンマウスのピスタチオは、クローズマウスのピスタチオよりも価格、価値、需要が高い。
これらの違いから、製造会社がそれぞれの種類を正確に数えることは相当な量である。
本稿では,異なる種類のピスタチオをコンピュータビジョンで数える新しいシステムを提案する。
我々は167秒の動画と3927のラベル付きピスタチオを含むピスタチオの新しいデータセットを導入し、共有した。
他の多くの作品とは異なり、われわれのモデルはピスタチオを画像ではなくビデオで数えている。
ビデオ内のオブジェクトをカウントするには、各オブジェクトをビデオフレーム間で割り当てる必要がある。
本研究における2つの課題は,輸送線上を移動・転動する開口部ピスタチオは,他のフレームでは閉口として現れる可能性があるため,異なるフレーム内でピスタチオの閉塞と変形が存在することである。
提案モデルでは,まず,映像中の各種ピスタチオを検出するためのデータセットを用いて,retinanet object detector network上でトレーニングを行う。
検出を収集した後,新しいトラッカに基づく新しいカウンタアルゴリズムに適用し,精度の高い連続フレームにピスタチオを割り当てる。
我々のモデルは、その外観(例えば、閉口に見えるオープンマウスピスタチオ)を回転させるピスタチオを互いに割り当てることができるので、それらを誤って数えない。
我々のアルゴリズムは非常に高速に動作し、優れたカウント結果が得られる。
6つのビデオ(9486フレーム)におけるアルゴリズムの計算精度は94.75%である。
関連論文リスト
- ConsistencyTrack: A Robust Multi-Object Tracker with a Generation Strategy of Consistency Model [20.259334882471574]
マルチオブジェクトトラッキング(MOT)は、コンピュータビジョンにおいて重要な技術であり、ビデオシーケンス内の複数のターゲットを検出し、各ターゲットにフレーム毎にユニークなIDを割り当てるように設計されている。
既存のMOTメソッドは、様々なシナリオでリアルタイムで複数のオブジェクトを正確に追跡する。
本稿では,境界ボックス上の拡散過程として検出と関連を定式化するための新しいConsistencyTrack, Joint Detection and Tracking (JDT) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-28T05:53:30Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Apple Counting using Convolutional Neural Networks [22.504279159923765]
果樹園のような現実の環境でのイメージから、正確で信頼性の高い果実や野菜の数を推定することは、難しい問題である。
コンボリューショナルニューラルネットワークを訓練することにより,画像から果実を数えることを多クラス分類問題として定式化し,その問題を解決する。
当社のネットワークは、最大94%の精度で、4つのデータセットのうち3つでパフォーマンスを向上しています。
論文 参考訳(メタデータ) (2022-08-24T14:13:40Z) - Negative Frames Matter in Egocentric Visual Query 2D Localization [119.23191388798921]
最近リリースされたEgo4Dデータセットとベンチマークは、一人称視覚知覚データを大幅にスケールし、多様化している。
Visual Queries 2Dローカライゼーションタスクは、1対1の視点で記録された過去に存在するオブジェクトを検索することを目的としている。
本研究は,Epsodic Memoryベンチマークで導入された3段階ベースラインに基づく。
論文 参考訳(メタデータ) (2022-08-03T09:54:51Z) - DR.VIC: Decomposition and Reasoning for Video Individual Counting [93.12166351940242]
我々は、新しい視点から歩行者計数を行う、ビデオ個別計数(VIC)を提案する。
本研究は,MOT(Multiple Object Tracking)技術に頼らず,全歩行者を第1フレームに存在する初期歩行者と第2フレームに別個の身元を持つ新歩行者に分解することで,その問題を解決することを提案する。
終端分解・推論ネットワーク (DRNet) は, 初期歩行者数を密度推定法で予測し, 新歩行者数を最適な移動量で推定するように設計されている。
論文 参考訳(メタデータ) (2022-03-23T11:24:44Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - MovieCuts: A New Dataset and Benchmark for Cut Type Recognition [114.57935905189416]
本稿では,マルチモーダル情報のモデリングを必要とするカット型認識タスクを提案する。
10種類のカットタイプにラベル付けされた170万以上のビデオクリップを含む大規模なデータセット、MovieCutsを構築した。
我々の最良のモデルは45.7%のmAPを達成しており、これはタスクが困難であり、高精度なカット型認識がオープンな研究課題であることを示している。
論文 参考訳(メタデータ) (2021-09-12T17:36:55Z) - Counting of Grapevine Berries in Images via Semantic Segmentation using
Convolutional Neural Networks [5.826324731529213]
本稿では、2つの異なるトレーニングシステムで動作する自動画像解析に基づく客観的フレームワークを提案する。
このフレームワークは、畳み込みニューラルネットワークを使用して、セマンティックセグメンテーションを実行することで、画像内の単一のベリーを検出する。
VSPでは94.0%,SMPHでは85.6%のベリー検出が可能であった。
論文 参考訳(メタデータ) (2020-04-29T08:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。