論文の概要: SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation
- arxiv url: http://arxiv.org/abs/2404.03518v1
- Date: Thu, 4 Apr 2024 15:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:22:11.777322
- Title: SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation
- Title(参考訳): SDPose:循環誘導自己蒸留によるトークンポス推定
- Authors: Sichen Chen, Yingyi Zhang, Siming Huang, Ran Yi, Ke Fan, Ruixin Zhang, Peixian Chen, Jun Wang, Shouhong Ding, Lizhuang Ma,
- Abstract要約: SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
- 参考スコア(独自算出の注目度): 53.675725490807615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer-based methods have achieved state-of-the-art prediction quality on human pose estimation(HPE). Nonetheless, most of these top-performing transformer-based models are too computation-consuming and storage-demanding to deploy on edge computing platforms. Those transformer-based models that require fewer resources are prone to under-fitting due to their smaller scale and thus perform notably worse than their larger counterparts. Given this conundrum, we introduce SDPose, a new self-distillation method for improving the performance of small transformer-based models. To mitigate the problem of under-fitting, we design a transformer module named Multi-Cycled Transformer(MCT) based on multiple-cycled forwards to more fully exploit the potential of small model parameters. Further, in order to prevent the additional inference compute-consuming brought by MCT, we introduce a self-distillation scheme, extracting the knowledge from the MCT module to a naive forward model. Specifically, on the MSCOCO validation dataset, SDPose-T obtains 69.7% mAP with 4.4M parameters and 1.8 GFLOPs. Furthermore, SDPose-S-V2 obtains 73.5% mAP on the MSCOCO validation dataset with 6.2M parameters and 4.7 GFLOPs, achieving a new state-of-the-art among predominant tiny neural network methods. Our code is available at https://github.com/MartyrPenink/SDPose.
- Abstract(参考訳): 近年,ヒトのポーズ推定(HPE)において,トランスフォーマーに基づく手法が最先端の予測品質を実現している。
しかしながら、これらのトップパフォーマンスのトランスフォーマーベースのモデルのほとんどは、エッジコンピューティングプラットフォームにデプロイするには計算に時間がかかりすぎるため、ストレージの要求が高すぎる。
より少ないリソースを必要とするトランスフォーマーベースのモデルは、規模が小さいため不適合になりがちである。
そこで本研究では,小型変圧器モデルの性能向上のための自己蒸留法であるSDPoseを紹介する。
マルチサイクル変換器(MCT)と呼ばれるトランスモジュールを複数サイクルのフォワードに基づいて設計し,小型モデルパラメータのポテンシャルをより十分に活用する。
さらに, MCTによる追加の推論計算消費を防止するため, MCTモジュールからナイーブフォワードモデルに知識を抽出する自己蒸留方式を導入する。
具体的には、MSCOCO検証データセット上で、SDPose-Tは4.4Mパラメータと1.8GFLOPを持つ69.7%のmAPを得る。
さらに、SDPose-S-V2は6.2Mパラメータと4.7GFLOPを持つMSCOCO検証データセット上で73.5%のmAPを取得し、主に小さなニューラルネットワーク手法の中で新しい最先端の手法を実現する。
私たちのコードはhttps://github.com/MartyrPenink/SDPose.comで利用可能です。
関連論文リスト
- Pre-training Point Cloud Compact Model with Partial-aware Reconstruction [51.403810709250024]
本稿では, 部分認識型textbfReconstruction を用いた, Point-CPR という事前学習型クラウド圧縮モデルを提案する。
我々のモデルは様々なタスクにおいて強い性能を示し、特にパラメータの2%しか持たない主要なMPMベースモデルであるPointGPT-Bを上回っている。
論文 参考訳(メタデータ) (2024-07-12T15:18:14Z) - LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling [47.94285833315427]
本稿では,局所的に制約されたコンパクト・エンコーダと局所的に制約されたMambaベースのデコーダからなる,局所的に制約されたコンパクト・ポイント・クラウド・モデルを提案する。
エンコーダは、パフォーマンスと効率のエレガントなバランスを達成するために、自己アテンションをローカルアグリゲーション層に置き換えます。
このデコーダは、高情報密度の未処理パッチからの点雲幾何学情報の知覚を最大化しつつ、線形複雑性を保証する。
論文 参考訳(メタデータ) (2024-05-27T13:19:23Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Element-Wise Attention Layers: an option for optimization [0.0]
配列乗算を用いることで,Dot-Product Attentionを要素ワイズに適応させる新しいアテンション機構を提案する。
結果は、このメカニズムにより、Fashion MNISTデータセットのVGGライクなデータセットの92%の精度が得られ、パラメータの数を97%削減できることを示している。
論文 参考訳(メタデータ) (2023-02-10T19:50:34Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。