論文の概要: Efficient Vision Transformer for Human Pose Estimation via Patch
Selection
- arxiv url: http://arxiv.org/abs/2306.04225v1
- Date: Wed, 7 Jun 2023 08:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 15:37:15.708652
- Title: Efficient Vision Transformer for Human Pose Estimation via Patch
Selection
- Title(参考訳): パッチ選択による人間のポーズ推定のための効率的な視覚トランスフォーマ
- Authors: Kaleab A. Kinfu and Ren\'e Vidal
- Abstract要約: ビジョントランスフォーマー(ViT)はCNNに代わる有望な代替品として登場し、最先端のパフォーマンスを向上している。
少数の最も情報性の高いパッチを選択し,処理することで,ViTの計算複雑性を低減できる簡単な方法を提案する。
提案手法の有効性を実証するため,COCO,MPII,OCHumanの3種類の2次元ポーズ推定ベンチマーク実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Convolutional Neural Networks (CNNs) have been widely successful in 2D
human pose estimation, Vision Transformers (ViTs) have emerged as a promising
alternative to CNNs, boosting state-of-the-art performance. However, the
quadratic computational complexity of ViTs has limited their applicability for
processing high-resolution images and long videos. To address this challenge,
we propose a simple method for reducing ViT's computational complexity based on
selecting and processing a small number of most informative patches while
disregarding others. We leverage a lightweight pose estimation network to guide
the patch selection process, ensuring that the selected patches contain the
most important information. Our experimental results on three widely used 2D
pose estimation benchmarks, namely COCO, MPII and OCHuman, demonstrate the
effectiveness of our proposed methods in significantly improving speed and
reducing computational complexity with a slight drop in performance.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は2次元の人間のポーズ推定において広く成功しているが、視覚変換器(ViT)はCNNに代わる有望な代替手段として現れ、最先端のパフォーマンスが向上している。
しかし、ViTsの二次計算複雑性は、高解像度の画像や長いビデオの処理に適用性に制限されている。
この問題に対処するため,本研究では,ViT の計算複雑性を減らし,少数の情報パッチを選択・処理する手法を提案する。
我々は,軽量なポーズ推定ネットワークを用いてパッチ選択プロセスをガイドし,選択したパッチが最も重要な情報を含むことを保証する。
我々は,COCO,MPII,OCHumanの3つの広範に使用されている2次元ポーズ推定ベンチマークを用いて,提案手法の有効性を実証した。
関連論文リスト
- SegStitch: Multidimensional Transformer for Robust and Efficient Medical Imaging Segmentation [15.811141677039224]
最先端の手法、特にトランスフォーマーを利用した手法は、3Dセマンティックセグメンテーションにおいて顕著に採用されている。
しかし、局所的な特徴や計算の複雑さが無視されているため、普通の視覚変換器は困難に直面する。
本稿では,SegStitchを提案する。SegStitchは変圧器とODEブロックを結合した革新的なアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T12:05:02Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Data-Side Efficiencies for Lightweight Convolutional Neural Networks [4.5853328688992905]
4つのデータ属性 – クラス数,オブジェクト色,画像解像度,オブジェクトスケール – が,ニューラルネットワークモデルのサイズと効率に与える影響を示す。
本稿では,ロボット経路計画アプリケーションのための軽量モデルを選択するために,メトリクスと手法を適用した例を示す。
論文 参考訳(メタデータ) (2023-08-24T19:50:25Z) - ConcatPlexer: Additional Dim1 Batching for Faster ViTs [31.239412320401467]
本稿では,Dim1ドメイン(結合)を付加した,効率的な視覚認識のための新しい手法を提案する。
まず、視覚モデルや画像多重化のためのDataMuxの単純適応を導入し、その弱点を克服するために新しい推論を考案する。
ConcatPlexerはImageNet1KとCIFAR100のデータセットで訓練され、それぞれ69.5%と83.4%の精度でVT-B/16よりも23.5%少ないGFLOPを達成した。
論文 参考訳(メタデータ) (2023-08-22T05:21:31Z) - Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning [5.236787242129767]
本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
論文 参考訳(メタデータ) (2021-08-13T06:07:57Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。