論文の概要: Efficient Vision Transformer for Human Pose Estimation via Patch
Selection
- arxiv url: http://arxiv.org/abs/2306.04225v2
- Date: Wed, 22 Nov 2023 12:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 19:07:13.861779
- Title: Efficient Vision Transformer for Human Pose Estimation via Patch
Selection
- Title(参考訳): パッチ選択による人間のポーズ推定のための効率的な視覚トランスフォーマ
- Authors: Kaleab A. Kinfu and Rene Vidal
- Abstract要約: ビジョントランスフォーマー(ViT)はCNNに代わる有望な代替品として登場し、最先端のパフォーマンスを向上している。
本稿では,ViTの計算複雑性を低減するための3つの方法を提案する。
提案手法は,0%から3.5%の精度で,30%から44%の範囲で計算複雑性の大幅な低減を実現している。
- 参考スコア(独自算出の注目度): 1.450405446885067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Convolutional Neural Networks (CNNs) have been widely successful in 2D
human pose estimation, Vision Transformers (ViTs) have emerged as a promising
alternative to CNNs, boosting state-of-the-art performance. However, the
quadratic computational complexity of ViTs has limited their applicability for
processing high-resolution images. In this paper, we propose three methods for
reducing ViT's computational complexity, which are based on selecting and
processing a small number of most informative patches while disregarding
others. The first two methods leverage a lightweight pose estimation network to
guide the patch selection process, while the third method utilizes a set of
learnable joint tokens to ensure that the selected patches contain the most
important information about body joints. Experiments across six benchmarks show
that our proposed methods achieve a significant reduction in computational
complexity, ranging from 30% to 44%, with only a minimal drop in accuracy
between 0% and 3.5%.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は2次元の人間のポーズ推定において広く成功しているが、視覚変換器(ViT)はCNNに代わる有望な代替手段として現れ、最先端のパフォーマンスが向上している。
しかし、ViTsの2次計算複雑性は高解像度画像処理への適用性を制限している。
本稿では,ViTの計算複雑性を低減するための3つの手法を提案する。
第1の2つの方法は、軽量なポーズ推定ネットワークを利用してパッチ選択プロセスをガイドし、第3の方法は学習可能なジョイントトークンのセットを使用して、選択されたパッチが身体関節に関する最も重要な情報を含むことを保証する。
6つのベンチマークで実験した結果,提案手法は計算複雑性を30%から44%まで大幅に低減し,0%から3.5%までの精度を最小に抑えることができた。
関連論文リスト
- SegStitch: Multidimensional Transformer for Robust and Efficient Medical Imaging Segmentation [15.811141677039224]
最先端の手法、特にトランスフォーマーを利用した手法は、3Dセマンティックセグメンテーションにおいて顕著に採用されている。
しかし、局所的な特徴や計算の複雑さが無視されているため、普通の視覚変換器は困難に直面する。
本稿では,SegStitchを提案する。SegStitchは変圧器とODEブロックを結合した革新的なアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T12:05:02Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Data-Side Efficiencies for Lightweight Convolutional Neural Networks [4.5853328688992905]
4つのデータ属性 – クラス数,オブジェクト色,画像解像度,オブジェクトスケール – が,ニューラルネットワークモデルのサイズと効率に与える影響を示す。
本稿では,ロボット経路計画アプリケーションのための軽量モデルを選択するために,メトリクスと手法を適用した例を示す。
論文 参考訳(メタデータ) (2023-08-24T19:50:25Z) - ConcatPlexer: Additional Dim1 Batching for Faster ViTs [31.239412320401467]
本稿では,Dim1ドメイン(結合)を付加した,効率的な視覚認識のための新しい手法を提案する。
まず、視覚モデルや画像多重化のためのDataMuxの単純適応を導入し、その弱点を克服するために新しい推論を考案する。
ConcatPlexerはImageNet1KとCIFAR100のデータセットで訓練され、それぞれ69.5%と83.4%の精度でVT-B/16よりも23.5%少ないGFLOPを達成した。
論文 参考訳(メタデータ) (2023-08-22T05:21:31Z) - Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning [5.236787242129767]
本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
論文 参考訳(メタデータ) (2021-08-13T06:07:57Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。