論文の概要: DeepMark++: Real-time Clothing Detection at the Edge
- arxiv url: http://arxiv.org/abs/2006.00710v3
- Date: Tue, 10 Nov 2020 07:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:16:19.875698
- Title: DeepMark++: Real-time Clothing Detection at the Edge
- Title(参考訳): DeepMark++: エッジでのリアルタイムクローン検出
- Authors: Alexey Sidnev, Alexander Krapivin, Alexey Trushkov, Ekaterina
Krasikova, Maxim Kazakov, Mikhail Viryasov
- Abstract要約: 本稿では,迅速な衣服検出とキーポイント推定を実現するための単一ステージアプローチを提案する。
提案手法は,マルチターゲットネットワークであるCenterNetをベースとして,性能向上のためのポストプロセッシング技術をいくつか導入する。
私たちの最も正確なモデルは、DeepFashion2データセットの最先端ソリューションに匹敵する結果を達成します。
- 参考スコア(独自算出の注目度): 55.41644538483948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clothing recognition is the most fundamental AI application challenge within
the fashion domain. While existing solutions offer decent recognition accuracy,
they are generally slow and require significant computational resources. In
this paper we propose a single-stage approach to overcome this obstacle and
deliver rapid clothing detection and keypoint estimation. Our solution is based
on a multi-target network CenterNet, and we introduce several powerful
post-processing techniques to enhance performance. Our most accurate model
achieves results comparable to state-of-the-art solutions on the DeepFashion2
dataset, and our light and fast model runs at 17 FPS on the Huawei P40 Pro
smartphone. In addition, we achieved second place in the DeepFashion2 Landmark
Estimation Challenge 2020 with 0.582 mAP on the test dataset.
- Abstract(参考訳): 衣服認識は、ファッション領域における最も基本的なAIアプリケーションチャレンジである。
既存のソリューションは適切な認識精度を提供するが、一般的には遅く、かなりの計算資源を必要とする。
本稿では,この障害を克服し,迅速な衣服検出とキーポイント推定を実現するための単段アプローチを提案する。
提案手法は,マルチターゲットネットワークであるCenterNetをベースとして,性能向上のためのポストプロセッシング技術をいくつか導入する。
私たちの最も正確なモデルは、deepfashion2データセットの最先端ソリューションに匹敵する結果を達成し、軽量で高速なモデルはhuawei p40 proの17fpsで動作します。
さらに、テストデータセットの0.582 mAPでDeepFashion2 Landmark Estimation Challenge 2020で2位を獲得しました。
関連論文リスト
- First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Spatiotemporal Agent Detection 2024 [12.952512012601874]
トラック1のタスクはエージェント検出であり、連続したビデオフレーム内のエージェントのためのエージェント用の「エージェントチューブ」を構築することを目的としている。
私たちのソリューションは、超小型オブジェクト、低照度、不均衡、きめ細かい分類など、このタスクにおける課題に焦点を当てています。
ROAD++ Challenge 2024のトラック1のテストセットで最初にランク付けし、平均30.82%の動画mAPを達成した。
論文 参考訳(メタデータ) (2024-10-30T14:52:43Z) - Image2PCI -- A Multitask Learning Framework for Estimating Pavement
Condition Indices Directly from Images [8.64316207086894]
本研究では,トップダウン舗装画像から直接舗装条件指数を予測する統合マルチタスクモデルを開発した。
マルチタスクにより、画像から直接PCIを推定するための検出およびセグメント化ヘッドから特徴を抽出することができる。
このモデルは、我々のベンチマーク済みでオープンな舗装救難データセットで非常によく機能します。
論文 参考訳(メタデータ) (2023-10-12T17:28:06Z) - Efficient Single Object Detection on Image Patches with Early Exit
Enhanced High-Precision CNNs [0.0]
本稿では,RoboCup Standard Platform Leagueの文脈における移動ロボットを用いた物体検出手法を提案する。
この課題は、様々な照明条件と高速な動きによって引き起こされるぼやけた画像において、ダイナミックな物体を検出することである。
この課題に対処するために,計算に制約のあるロボットプラットフォーム用に設計された畳み込みニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-09-07T07:23:55Z) - Efficient Single-Image Depth Estimation on Mobile Devices, Mobile AI &
AIM 2022 Challenge: Report [108.88637766066759]
ディープラーニングベースの単一画像深度推定ソリューションは、IoTプラットフォームとスマートフォン上でリアルタイムのパフォーマンスを示すことができる。
このチャレンジで開発されたモデルは、AndroidやLinuxベースのモバイルデバイスとも互換性がある。
論文 参考訳(メタデータ) (2022-11-07T22:20:07Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - Projected GANs Converge Faster [50.23237734403834]
GAN(Generative Adversarial Networks)は高品質な画像を生成するが、訓練は難しい。
生成したサンプルと実際のサンプルを固定された事前訓練された特徴空間に投影することで、これらの問題に大きく取り組みます。
我々の投影GANは画像品質、サンプル効率、収束速度を改善する。
論文 参考訳(メタデータ) (2021-11-01T15:11:01Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Fast and Accurate Single-Image Depth Estimation on Mobile Devices,
Mobile AI 2021 Challenge: Report [105.32612705754605]
そこでは、エンドツーエンドのディープラーニングベースの深度推定ソリューションを開発することが目標です。
提案したソリューションは、Raspberry Pi 4上で最大10FPSのVGA解像度深度マップを生成でき、高い忠実度を達成できる。
論文 参考訳(メタデータ) (2021-05-17T13:49:57Z) - FastHand: Fast Hand Pose Estimation From A Monocular Camera [12.790733588554588]
ハンドポーズ推定のための高速・高精度なフレームワーク「FastHand」を提案します。
FastHandは、NVIDIA Jetson TX2グラフィックス処理ユニットで毎秒25フレームの速度に達しながら、高い精度のスコアを提供する。
論文 参考訳(メタデータ) (2021-02-14T04:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。