論文の概要: SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation
- arxiv url: http://arxiv.org/abs/2404.03518v1
- Date: Thu, 4 Apr 2024 15:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:22:11.777322
- Title: SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation
- Title(参考訳): SDPose:循環誘導自己蒸留によるトークンポス推定
- Authors: Sichen Chen, Yingyi Zhang, Siming Huang, Ran Yi, Ke Fan, Ruixin Zhang, Peixian Chen, Jun Wang, Shouhong Ding, Lizhuang Ma,
- Abstract要約: SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
- 参考スコア(独自算出の注目度): 53.675725490807615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, transformer-based methods have achieved state-of-the-art prediction quality on human pose estimation(HPE). Nonetheless, most of these top-performing transformer-based models are too computation-consuming and storage-demanding to deploy on edge computing platforms. Those transformer-based models that require fewer resources are prone to under-fitting due to their smaller scale and thus perform notably worse than their larger counterparts. Given this conundrum, we introduce SDPose, a new self-distillation method for improving the performance of small transformer-based models. To mitigate the problem of under-fitting, we design a transformer module named Multi-Cycled Transformer(MCT) based on multiple-cycled forwards to more fully exploit the potential of small model parameters. Further, in order to prevent the additional inference compute-consuming brought by MCT, we introduce a self-distillation scheme, extracting the knowledge from the MCT module to a naive forward model. Specifically, on the MSCOCO validation dataset, SDPose-T obtains 69.7% mAP with 4.4M parameters and 1.8 GFLOPs. Furthermore, SDPose-S-V2 obtains 73.5% mAP on the MSCOCO validation dataset with 6.2M parameters and 4.7 GFLOPs, achieving a new state-of-the-art among predominant tiny neural network methods. Our code is available at https://github.com/MartyrPenink/SDPose.
- Abstract(参考訳): 近年,ヒトのポーズ推定(HPE)において,トランスフォーマーに基づく手法が最先端の予測品質を実現している。
しかしながら、これらのトップパフォーマンスのトランスフォーマーベースのモデルのほとんどは、エッジコンピューティングプラットフォームにデプロイするには計算に時間がかかりすぎるため、ストレージの要求が高すぎる。
より少ないリソースを必要とするトランスフォーマーベースのモデルは、規模が小さいため不適合になりがちである。
そこで本研究では,小型変圧器モデルの性能向上のための自己蒸留法であるSDPoseを紹介する。
マルチサイクル変換器(MCT)と呼ばれるトランスモジュールを複数サイクルのフォワードに基づいて設計し,小型モデルパラメータのポテンシャルをより十分に活用する。
さらに, MCTによる追加の推論計算消費を防止するため, MCTモジュールからナイーブフォワードモデルに知識を抽出する自己蒸留方式を導入する。
具体的には、MSCOCO検証データセット上で、SDPose-Tは4.4Mパラメータと1.8GFLOPを持つ69.7%のmAPを得る。
さらに、SDPose-S-V2は6.2Mパラメータと4.7GFLOPを持つMSCOCO検証データセット上で73.5%のmAPを取得し、主に小さなニューラルネットワーク手法の中で新しい最先端の手法を実現する。
私たちのコードはhttps://github.com/MartyrPenink/SDPose.comで利用可能です。
関連論文リスト
- SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - External Prompt Features Enhanced Parameter-efficient Fine-tuning for Salient Object Detection [6.5971464769307495]
Salient Object Detection (SOD) は、画像中の最も健全なオブジェクトを見つけ、ピクセルレベルのバイナリマスクを出力することを目的としている。
トランスフォーマーに基づく手法は,グローバルなセマンティック理解により,有望な性能を実現する。
そこで本研究では,トレーニングパラメータ数の削減を目的とした,パラメータ効率の高いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T13:15:07Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Element-Wise Attention Layers: an option for optimization [0.0]
配列乗算を用いることで,Dot-Product Attentionを要素ワイズに適応させる新しいアテンション機構を提案する。
結果は、このメカニズムにより、Fashion MNISTデータセットのVGGライクなデータセットの92%の精度が得られ、パラメータの数を97%削減できることを示している。
論文 参考訳(メタデータ) (2023-02-10T19:50:34Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。