論文の概要: QuickBrowser: A Unified Model to Detect and Read Simple Object in
Real-time
- arxiv url: http://arxiv.org/abs/2102.07354v1
- Date: Mon, 15 Feb 2021 05:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 20:48:49.233834
- Title: QuickBrowser: A Unified Model to Detect and Read Simple Object in
Real-time
- Title(参考訳): QuickBrowser: 単純なオブジェクトをリアルタイムで検出して読み取る統一モデル
- Authors: Thao Do and Daeyoung Kim
- Abstract要約: 本研究では,多桁認識を1段階物体検出モデルに組み込むことにより,この検出と読み取りの問題を軽量に解決することを目的とする。
アーキテクチャ、損失関数、データ拡張、トレーニングにおけるバックボーンと修正の選択は、このメソッドを堅牢で効率的かつ高速にします。
- 参考スコア(独自算出の注目度): 3.098115480186737
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: There are many real-life use cases such as barcode scanning or billboard
reading where people need to detect objects and read the object contents.
Commonly existing methods are first trying to localize object regions, then
determine layout and lastly classify content units. However, for simple fixed
structured objects like license plates, this approach becomes overkill and
lengthy to run. This work aims to solve this detect-and-read problem in a
lightweight way by integrating multi-digit recognition into a one-stage object
detection model. Our unified method not only eliminates the duplication in
feature extraction (one for localizing, one again for classifying) but also
provides useful contextual information around object regions for
classification. Additionally, our choice of backbones and modifications in
architecture, loss function, data augmentation and training make the method
robust, efficient and speedy. Secondly, we made a public benchmark dataset of
diverse real-life 1D barcodes for a reliable evaluation, which we collected,
annotated and checked carefully. Eventually, experimental results prove the
method's efficiency on the barcode problem by outperforming industrial tools in
both detecting and decoding rates with a real-time fps at a VGA-similar
resolution. It also did a great job expectedly on the license-plate recognition
task (on the AOLP dataset) by outperforming the current state-of-the-art method
significantly in terms of recognition rate and inference time.
- Abstract(参考訳): バーコードスキャンや看板読み取りなど、オブジェクトを検出してオブジェクトの内容を読み取る必要がある実際のユースケースはたくさんあります。
一般的に既存のメソッドは、まずオブジェクト領域をローカライズし、レイアウトを決定し、最後にコンテンツ単位を分類します。
しかし、ライセンスプレートのような単純な固定構造化オブジェクトの場合、このアプローチはやり過ぎで長持ちします。
本研究では,多桁認識を1段階物体検出モデルに組み込むことにより,この検出と読み取りの問題を軽量に解決することを目的とする。
私たちの統合メソッドは、特徴抽出の重複を排除するだけでなく(ローカライズのためのもの、分類のためのもの)、分類のためのオブジェクト領域に関する有用なコンテキスト情報を提供します。
さらに、アーキテクチャ、損失関数、データ拡張、トレーニングにおけるバックボーンと修正の選択は、メソッドを堅牢で効率的かつ高速にします。
第2に,信頼性の高い評価のために,様々な実生活用1dバーコードの公開ベンチマークデータセットを作成し,それらを収集し,注釈付けし,注意深くチェックした。
最終的に,vga類似の解像度で実時間fpsによる検出・復号速度において,産業用ツールを上回ることで,バーコード問題に対する手法の有効性を実験的に証明した。
また、(AOLPデータセット上の)ライセンスプレート認識タスクにおいて、現在の最新手法を認識率と推論時間において大幅に上回るパフォーマンスで、大きな成果を挙げた。
関連論文リスト
- Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Improving Online Lane Graph Extraction by Object-Lane Clustering [106.71926896061686]
本稿では,局所レーングラフの推定精度を向上させるために,アーキテクチャと損失の定式化を提案する。
提案手法は,中心線をクラスタ中心とすることで,対象を中心線に割り当てることを学ぶ。
提案手法は既存の3次元オブジェクト検出手法の出力を用いて,大幅な性能向上を実現することができることを示す。
論文 参考訳(メタデータ) (2023-07-20T15:21:28Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Fast and Accurate Object Detection on Asymmetrical Receptive Field [0.0]
本稿では,物体検出精度を受容場の変化の観点から改善する手法を提案する。
YOLOv5の頭部の構造は、非対称なプール層を付加することによって改変される。
本稿では, 従来の YOLOv5 モデルと比較し, いくつかのパラメータから解析する。
論文 参考訳(メタデータ) (2023-03-15T23:59:18Z) - One-Shot General Object Localization [43.88712478006662]
OneLocは一般的なワンショットオブジェクトローカライゼーションアルゴリズムである。
OneLocは、特別な投票方式により、オブジェクトセンターとバウンディングボックスサイズを効率的に見つける。
実験の結果,提案手法は2つのデータセットに対して,最先端の総合的な性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-11-24T03:14:04Z) - Seeing BDD100K in dark: Single-Stage Night-time Object Detection via
Continual Fourier Contrastive Learning [3.4012007729454816]
夜間物体検出は、限られた論文のうち、一様でない評価プロトコルを通して、わずかにのみ研究されている。
本稿では,これら3つのギャップを橋渡しする。
均一な評価プロトコルの欠如(その有効性と効率のため、単段検出器を使用する)。
夜間オブジェクト検出のベンチマークのためのデータセットの選択。
現在の選択肢の限界に対処する新しい方法。
論文 参考訳(メタデータ) (2021-12-06T09:28:45Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Multi-patch Feature Pyramid Network for Weakly Supervised Object
Detection in Optical Remote Sensing Images [39.25541709228373]
マルチパッチ特徴ピラミッドネットワーク(MPFP-Net)を用いたオブジェクト検出のための新しいアーキテクチャを提案する。
MPFP-Netは、トレーニング中の最も差別的なパッチのみを追求する現在のモデルとは異なる。
残余値の正則化と核融合遷移層を厳密にノルム保存する有効な方法を提案する。
論文 参考訳(メタデータ) (2021-08-18T09:25:39Z) - Slender Object Detection: Diagnoses and Improvements [74.40792217534]
本稿では,超高アスペクト比,すなわちtextbfslender オブジェクトの特定タイプの検出について検討する。
古典的物体検出法では、細い物体に対してのみ評価される場合、COCO上の18.9%のmAPの劇的な低下が観察される。
論文 参考訳(メタデータ) (2020-11-17T09:39:42Z) - Towards End-to-end Car License Plate Location and Recognition in
Unconstrained Scenarios [0.0]
ライセンスプレートの検出と認識を同時に行うための効率的なフレームワークを提案する。
軽量で統一されたディープニューラルネットワークで、エンドツーエンドに最適化され、リアルタイムに動作する。
実験結果から,提案手法は従来の最先端手法よりも高速・高精度で優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-08-25T09:51:33Z) - A Self-Training Approach for Point-Supervised Object Detection and
Counting in Crowds [54.73161039445703]
本稿では,ポイントレベルのアノテーションのみを用いて訓練された典型的なオブジェクト検出を可能にする,新たな自己学習手法を提案する。
トレーニング中、利用可能なポイントアノテーションを使用して、オブジェクトの中心点の推定を監督する。
実験の結果,本手法は検出タスクとカウントタスクの両方において,最先端のポイント管理手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-25T02:14:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。