論文の概要: Working with scale: 2nd place solution to Product Detection in Densely
Packed Scenes [Technical Report]
- arxiv url: http://arxiv.org/abs/2006.07825v1
- Date: Sun, 14 Jun 2020 07:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:03:33.739852
- Title: Working with scale: 2nd place solution to Product Detection in Densely
Packed Scenes [Technical Report]
- Title(参考訳): スケールによる作業 - 密集したシーンにおける製品検出の2位ソリューション [in japanese]
- Authors: Artem Kozlov
- Abstract要約: 本報告では,CVPR 2020 Retail-Visionワークショップにおける検出課題の2番目の解決方法について述べる。
信頼性と結果の到達には、一般的なオブジェクト検出ツールボックスであるMMDetectionを組み込むことで達成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes a 2nd place solution of the detection challenge which
is held within CVPR 2020 Retail-Vision workshop. Instead of going further
considering previous results this work mainly aims to verify previously
observed takeaways by re-experimenting. The reliability and reproducibility of
the results are reached by incorporating a popular object detection toolbox -
MMDetection. In this report, I firstly represent the results received for
Faster-RCNN and RetinaNet models, which were taken for comparison in the
original work. Then I describe the experiment results with more advanced
models. The final section reviews two simple tricks for Faster-RCNN model that
were used for my final submission: changing default anchor scale parameter and
train-time image tiling. The source code is available at
https://github.com/tyomj/product_detection.
- Abstract(参考訳): 本報告では,CVPR 2020 Retail-Visionワークショップで実施されている検出課題の2番目の解決について述べる。
以前の結果をさらに検討する代わりに、この研究は、主に再実験によって観察されたテイクアウトを検証することを目的としている。
この結果の信頼性と再現性は、人気のある物体検出ツールboxmm検出を組み込むことにより達成される。
本報告では,本報告では,本論文の原案と比較した高速rcnnモデルとretinanetモデルについて,まずその結果について述べる。
次に、より高度なモデルで実験結果を説明します。
最後のセクションでは、最後の提案で使用されたfaster-rcnnモデルの2つの簡単なトリックをレビューしています。
ソースコードはhttps://github.com/tyomj/product_detectionで入手できる。
関連論文リスト
- Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection [74.01846006894635]
本稿では,リモートセンシングオブジェクト検出において,大きなストリップ畳み込みが優れた特徴表現学習者であることを示す。
我々はStrip R-CNNと呼ばれる,シンプルで効率的でパワフルなネットワークアーキテクチャを構築した。
論文 参考訳(メタデータ) (2025-01-07T13:30:54Z) - MOD-CL: Multi-label Object Detection with Constrained Loss [3.92610460921618]
本稿では,最先端オブジェクト検出モデルYOLOv8上に構築されたマルチラベルオブジェクト検出モデルである$mathrmMOD_YOLO$を使用する。
タスク1では、オブジェクト検出プロセスの後に続く2つの新しいモデルであるCorrector ModelとBlender Modelを導入し、より制約のある出力を生成する。
Task 2では、Product T-Normを使った$mathrmMOD_YOLO$アーキテクチャに制約付き損失が組み込まれています。
論文 参考訳(メタデータ) (2024-01-31T23:13:20Z) - What You See Is What You Detect: Towards better Object Densification in
3D detection [2.3436632098950456]
広く使われているフル形状のコンプリートアプローチは、特に遠く離れた物や歩行者のような小さな物に対して、エラーのアップバウンドを高くする。
従来の手法が生成した予測ポイントの11.3%しか必要としない可視部分補完法を提案する。
密表現を復元するために,目に見える前景オブジェクトに関連付けられた点集合を拡大するメッシュデフォーメーションに基づく手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T01:46:37Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Towards Total Recall in Industrial Anomaly Detection [38.4839780454375]
画像中の欠陥部分の発見問題を解決するために,PatchCoreを提案する。
PatchCoreは、検出とローカライゼーションの両方で最先端のパフォーマンスを達成しながら、競合する推論時間を提供します。
標準データセットMVTec ADでは、PatchCoreはイメージレベルの異常検出AUROCスコアを99.1%で達成している。
論文 参考訳(メタデータ) (2021-06-15T16:27:02Z) - Recursive Contour Saliency Blending Network for Accurate Salient Object
Detection [0.0]
本研究では,有能な物体検出におけるエッジ品質向上のためのネットワークを設計した。
輪郭と塩分を交換するための輪郭・塩分混合モジュールを提案した。
我々のモデルは軽量で高速で、パラメータはわずか279万、リアルタイム推論は31FPSである。
論文 参考訳(メタデータ) (2021-05-28T14:19:54Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - 1st Place Solutions for OpenImage2019 -- Object Detection and Instance
Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。
一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。
自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文 参考訳(メタデータ) (2020-03-17T06:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。