論文の概要: Refined Temporal Pyramidal Compression-and-Amplification Transformer for
3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2309.01365v2
- Date: Wed, 6 Sep 2023 02:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 11:35:13.994493
- Title: Refined Temporal Pyramidal Compression-and-Amplification Transformer for
3D Human Pose Estimation
- Title(参考訳): 時間的ピラミッド圧縮増幅変換器による3次元姿勢推定
- Authors: Hanbing Liu, Wangmeng Xiang, Jun-Yan He, Zhi-Qi Cheng, Bin Luo, Yifeng
Geng and Xuansong Xie
- Abstract要約: ビデオシーケンス中の人間の3Dポーズを正確に推定するには、精度とよく構造化されたアーキテクチャの両方が必要である。
本稿では,RTPCA(Refined Temporal Pyramidal Compression-and-Amplification)変換器を紹介する。
本稿では,Human3.6M,HumanEva-I,MPI-INF-3DHPベンチマーク上でのRTPCAの有効性を示す。
- 参考スコア(独自算出の注目度): 26.61672772233569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately estimating the 3D pose of humans in video sequences requires both
accuracy and a well-structured architecture. With the success of transformers,
we introduce the Refined Temporal Pyramidal Compression-and-Amplification
(RTPCA) transformer. Exploiting the temporal dimension, RTPCA extends
intra-block temporal modeling via its Temporal Pyramidal
Compression-and-Amplification (TPCA) structure and refines inter-block feature
interaction with a Cross-Layer Refinement (XLR) module. In particular, TPCA
block exploits a temporal pyramid paradigm, reinforcing key and value
representation capabilities and seamlessly extracting spatial semantics from
motion sequences. We stitch these TPCA blocks with XLR that promotes rich
semantic representation through continuous interaction of queries, keys, and
values. This strategy embodies early-stage information with current flows,
addressing typical deficits in detail and stability seen in other
transformer-based methods. We demonstrate the effectiveness of RTPCA by
achieving state-of-the-art results on Human3.6M, HumanEva-I, and MPI-INF-3DHP
benchmarks with minimal computational overhead. The source code is available at
https://github.com/hbing-l/RTPCA.
- Abstract(参考訳): ビデオシーケンスにおける人間の3dポーズを正確に推定するには、精度と構造が整ったアーキテクチャが必要である。
トランスの成功により,RTPCA(Refined Temporal Pyramidal Compression-and-Amplification)トランスを導入した。
時間次元の展開により、RTPCAは、時間的ピラミッド圧縮増幅(TPCA)構造を介してブロック内時間モデリングを拡張し、クロス層リファインメント(XLR)モジュールとのブロック間特徴相互作用を洗練する。
特にTPCAブロックは、時間的ピラミッドパラダイムを利用して、キーと値の表現能力を強化し、動きシーケンスから空間意味をシームレスに抽出する。
我々はこれらのTPCAブロックをXLRで縫合し、クエリ、キー、値の連続的な相互作用を通じてリッチなセマンティック表現を促進する。
この戦略は、他の変圧器ベースの方法に見られる典型的な欠陥と安定性に対処し、電流の流れを伴う初期段階の情報を具現化する。
計算オーバーヘッドが最小限であるHuman3.6M, HumanEva-I, MPI-INF-3DHPベンチマークに対して, 最先端の結果を達成し, RTPCAの有効性を示す。
ソースコードはhttps://github.com/hbing-l/RTPCAで入手できる。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - RhythmFormer: Extracting rPPG Signals Based on Hierarchical Temporal
Periodic Transformer [17.751885452773983]
本稿では,r周期性の準周期特性を明示的に活用することにより,r信号の完全エンドツーエンド変換手法を提案する。
融合ステムはr特徴に対する自己注意を効果的に導くために提案され、既存の手法に容易に移行し、その性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-02-20T07:56:02Z) - Transformer-based Video Saliency Prediction with High Temporal Dimension
Decoding [12.595019348741042]
本稿では,高テンポラル次元ネットワークデコーディング(THTDNet)を用いたトランスフォーマに基づくビデオサリエンシ予測手法を提案する。
このアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
論文 参考訳(メタデータ) (2024-01-15T20:09:56Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution [32.29219284419944]
クロスリファインメント適応型特徴変調トランス(CRAFT)
CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。
実験結果から, CRAFTは, 完全精度と量子化のシナリオにおいて, 現在の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-09T15:38:36Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。