論文の概要: Rethinking Deconvolution for 2D Human Pose Estimation Light yet Accurate
Model for Real-time Edge Computing
- arxiv url: http://arxiv.org/abs/2111.04226v1
- Date: Mon, 8 Nov 2021 01:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 02:21:36.554612
- Title: Rethinking Deconvolution for 2D Human Pose Estimation Light yet Accurate
Model for Real-time Edge Computing
- Title(参考訳): リアルタイムエッジコンピューティングのための2次元人物位置推定光の高精度モデル再検討
- Authors: Masayuki Yamazaki, Eigo Mori
- Abstract要約: このシステムは精度が高く、SOTA HRNet 256x192の94.5%の精度を達成した。
我々のモデルはエンコーダ・デコーダアーキテクチャを採用し、その効率を改善するために注意深く縮小されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we present a pragmatic lightweight pose estimation model. Our
model can achieve real-time predictions using low-power embedded devices. This
system was found to be very accurate and achieved a 94.5% accuracy of SOTA
HRNet 256x192 using a computational cost of only 3.8% on COCO test dataset. Our
model adopts an encoder-decoder architecture and is carefully downsized to
improve its efficiency. We especially focused on optimizing the deconvolution
layers and observed that the channel reduction of the deconvolution layers
contributes significantly to reducing computational resource consumption
without degrading the accuracy of this system. We also incorporated recent
model agnostic techniques such as DarkPose and distillation training to
maximize the efficiency of our model. Furthermore, we applied model
quantization to exploit multi/mixed precision features. Our FP16'ed model (COCO
AP 70.0) operates at ~60-fps on NVIDIA Jetson AGX Xavier and ~200 fps on NVIDIA
Quadro RTX6000.
- Abstract(参考訳): 本研究では,現実的な軽量ポーズ推定モデルを提案する。
我々のモデルは低消費電力組込みデバイスを用いてリアルタイムな予測を行うことができる。
このシステムは精度が高く、COCOテストデータセットの計算コストはわずか3.8%であったため、SOTA HRNet 256x192の94.5%の精度を達成した。
私たちのモデルはエンコーダ-デコーダアーキテクチャを採用しており、効率を改善するために慎重に縮小しています。
特に,デコンボリューション層を最適化することに着目し,デコンボリューション層のチャネル削減が,システムの精度を損なうことなく計算資源消費量の削減に大きく寄与することを確認した。
また,モデル効率を最大化するために,ダークポスや蒸留訓練などの最近のモデル非依存技術も取り入れた。
さらに、モデル量子化を適用し、マルチ/ミックス精度の特徴を利用する。
FP16のモデル(COCO AP 70.0)はNVIDIA Jetson AGX Xavierで60fps、NVIDIA Quadro RTX6000で200fpsで動作する。
関連論文リスト
- Trimming the Fat: Efficient Compression of 3D Gaussian Splats through Pruning [17.097742540845672]
脂肪を磨く」とは、モデルに符号化された余分な情報を除去する、ポストホックな勾配インフォームド・イテレーティブ・プルーニング技術である。
提案手法は,ベースラインモデルに類似した性能を維持しつつ,約50$times$圧縮を実現し,最大600FPSの高速化を実現している。
論文 参考訳(メタデータ) (2024-06-26T09:57:55Z) - Network architecture search of X-ray based scientific applications [4.8287663496299755]
X線および電子回折に基づく顕微鏡は、ブラッグピーク検出とポチグラフィーを用いて原子分解能で3Dイメージングを行う。
近年、ディープニューラルネットワークの使用により、既存の最先端アプローチが改善されている。
論文 参考訳(メタデータ) (2024-04-16T16:09:38Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Generative Multi-Stream Architecture For American Sign Language
Recognition [15.717424753251674]
複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。
本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。
提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
論文 参考訳(メタデータ) (2020-03-09T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。