論文の概要: Rethinking Deconvolution for 2D Human Pose Estimation Light yet Accurate
Model for Real-time Edge Computing
- arxiv url: http://arxiv.org/abs/2111.04226v1
- Date: Mon, 8 Nov 2021 01:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 02:21:36.554612
- Title: Rethinking Deconvolution for 2D Human Pose Estimation Light yet Accurate
Model for Real-time Edge Computing
- Title(参考訳): リアルタイムエッジコンピューティングのための2次元人物位置推定光の高精度モデル再検討
- Authors: Masayuki Yamazaki, Eigo Mori
- Abstract要約: このシステムは精度が高く、SOTA HRNet 256x192の94.5%の精度を達成した。
我々のモデルはエンコーダ・デコーダアーキテクチャを採用し、その効率を改善するために注意深く縮小されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we present a pragmatic lightweight pose estimation model. Our
model can achieve real-time predictions using low-power embedded devices. This
system was found to be very accurate and achieved a 94.5% accuracy of SOTA
HRNet 256x192 using a computational cost of only 3.8% on COCO test dataset. Our
model adopts an encoder-decoder architecture and is carefully downsized to
improve its efficiency. We especially focused on optimizing the deconvolution
layers and observed that the channel reduction of the deconvolution layers
contributes significantly to reducing computational resource consumption
without degrading the accuracy of this system. We also incorporated recent
model agnostic techniques such as DarkPose and distillation training to
maximize the efficiency of our model. Furthermore, we applied model
quantization to exploit multi/mixed precision features. Our FP16'ed model (COCO
AP 70.0) operates at ~60-fps on NVIDIA Jetson AGX Xavier and ~200 fps on NVIDIA
Quadro RTX6000.
- Abstract(参考訳): 本研究では,現実的な軽量ポーズ推定モデルを提案する。
我々のモデルは低消費電力組込みデバイスを用いてリアルタイムな予測を行うことができる。
このシステムは精度が高く、COCOテストデータセットの計算コストはわずか3.8%であったため、SOTA HRNet 256x192の94.5%の精度を達成した。
私たちのモデルはエンコーダ-デコーダアーキテクチャを採用しており、効率を改善するために慎重に縮小しています。
特に,デコンボリューション層を最適化することに着目し,デコンボリューション層のチャネル削減が,システムの精度を損なうことなく計算資源消費量の削減に大きく寄与することを確認した。
また,モデル効率を最大化するために,ダークポスや蒸留訓練などの最近のモデル非依存技術も取り入れた。
さらに、モデル量子化を適用し、マルチ/ミックス精度の特徴を利用する。
FP16のモデル(COCO AP 70.0)はNVIDIA Jetson AGX Xavierで60fps、NVIDIA Quadro RTX6000で200fpsで動作する。
関連論文リスト
- An FPGA smart camera implementation of segmentation models for drone
wildfire imagery [0.9837190842240352]
森林火災は、様々な社会的・環境レベルへの影響から、世界有数の自然災害の1つとなっている。
ファイアファイアファイアの最も有望なアプローチの1つは、リモートで検出、監視、延焼評価を行うために可視・赤外線カメラを備えたドローンを使用することである。
本研究では,低消費電力フィールドプログラマブルゲートアレイ(FPGA)とバイナライズニューラルネットワーク(BNN)に基づくスマートカメラが,エッジ上でのオンボードコンピューティングの実装において,コスト効率のよい代替手段であることを示す。
論文 参考訳(メタデータ) (2023-09-04T02:30:14Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - Slim-neck by GSConv: A better design paradigm of detector architectures
for autonomous vehicles [6.30864225692394]
本稿では,モデルの軽量化と精度向上のための新しい手法GSConvを提案する。
我々は、検出器の計算コスト効率を高めるために、スリムネックという設計パラダイムを提供する。
論文 参考訳(メタデータ) (2022-06-06T08:34:52Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Generative Multi-Stream Architecture For American Sign Language
Recognition [15.717424753251674]
複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。
本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。
提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
論文 参考訳(メタデータ) (2020-03-09T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。