論文の概要: PyCAT4: A Hierarchical Vision Transformer-based Framework for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2508.02806v1
- Date: Mon, 04 Aug 2025 18:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.634122
- Title: PyCAT4: A Hierarchical Vision Transformer-based Framework for 3D Human Pose Estimation
- Title(参考訳): PyCAT4: 人間の3次元姿勢推定のための階層型視覚変換器ベースのフレームワーク
- Authors: Zongyou Yang, Jonathan Loo,
- Abstract要約: 本研究では,既存のPymafネットワークアーキテクチャを深く最適化し,改良することを目的とする。
新しいPyCAT4モデルは、COCOと3DPWデータセットの実験を通じて検証される。
- 参考スコア(独自算出の注目度): 0.8149086480055433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a significant improvement in the accuracy of 3D human pose estimation has been achieved by combining convolutional neural networks (CNNs) with pyramid grid alignment feedback loops. Additionally, innovative breakthroughs have been made in the field of computer vision through the adoption of Transformer-based temporal analysis architectures. Given these advancements, this study aims to deeply optimize and improve the existing Pymaf network architecture. The main innovations of this paper include: (1) Introducing a Transformer feature extraction network layer based on self-attention mechanisms to enhance the capture of low-level features; (2) Enhancing the understanding and capture of temporal signals in video sequences through feature temporal fusion techniques; (3) Implementing spatial pyramid structures to achieve multi-scale feature fusion, effectively balancing feature representations differences across different scales. The new PyCAT4 model obtained in this study is validated through experiments on the COCO and 3DPW datasets. The results demonstrate that the proposed improvement strategies significantly enhance the network's detection capability in human pose estimation, further advancing the development of human pose estimation technology.
- Abstract(参考訳): 近年,畳み込みニューラルネットワーク(CNN)とピラミッドグリッドアライメントフィードバックループを組み合わせることで,人間の3次元ポーズ推定の精度を大幅に向上した。
さらに、トランスフォーマーベースの時間解析アーキテクチャを採用することにより、コンピュータビジョンの分野で革新的なブレークスルーが行われた。
これらの進歩を踏まえ、本研究は既存のPymafネットワークアーキテクチャを深く最適化し、改善することを目的としている。
本研究の主な革新は,(1)低レベル特徴の捕捉を促進する自己認識機構に基づくトランスフォーマー特徴抽出ネットワーク層の導入,(2)特徴時間融合技術による映像系列の時間信号の理解と捕捉の促進,(3)多スケール特徴融合を実現するための空間ピラミッド構造の実装,そして,異なるスケールにおける特徴表現の相違を効果的にバランスさせることである。
本研究で得られた新しいPyCAT4モデルは,COCOおよび3DPWデータセットの実験により検証した。
その結果,提案手法は人的ポーズ推定におけるネットワークの検出能力を著しく向上させ,さらに人的ポーズ推定技術の開発を進めた。
関連論文リスト
- BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - PEP-GS: Perceptually-Enhanced Precise Structured 3D Gaussians for View-Adaptive Rendering [3.1006820631993515]
3D Gaussian Splatting (3D-GS)はリアルタイムで高品質な3Dシーンレンダリングにおいて大きな成功を収めた。
PEP-GSは、不透明度、色、共分散を含むガウス属性を動的に予測する知覚的に強化されたフレームワークである。
我々はPEP-GSが最先端の手法、特にビュー依存効果や細かな詳細を含む挑戦的なシナリオにおいて優れていることを示す。
論文 参考訳(メタデータ) (2024-11-08T17:42:02Z) - Learning Global and Local Features of Power Load Series Through Transformer and 2D-CNN: An Image-based Multi-step Forecasting Approach Incorporating Phase Space Reconstruction [1.9458156037869137]
本研究では,PSRをニューラルネットワークと微妙に統合し,エンドツーエンドの学習システムを構築することで,新たな多段階予測手法を提案する。
PSR-GALIENと呼ばれる新しいディープラーニングモデルが設計され、トランスフォーマーと2D-CNNが画像のグローバルパターンとローカルパターンの抽出に使用される。
その結果,6つの最先端ディープラーニングモデルと比較して,PSR-GALIENの予測性能はこれらのベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-16T09:59:13Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds [6.69660410213287]
我々は,3次元表現学習と生成学習を深く統合する利点を探るため,Point-MGEと呼ばれる革新的なフレームワークを提案する。
形状分類において、Point-MGEはModelNet40データセットで94.2%(+1.0%)、ScanObjectNNデータセットで92.9%(+5.5%)の精度を達成した。
また,非条件条件と条件条件条件条件の両方で,Point-MGEが高品質な3D形状を生成可能であることを確認した。
論文 参考訳(メタデータ) (2024-06-25T07:57:03Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Deepfake Detection: Leveraging the Power of 2D and 3D CNN Ensembles [0.0]
本研究は,映像コンテンツの検証に革新的なアプローチを提案する。
この手法は高度な2次元および3次元畳み込みニューラルネットワークをブレンドする。
実験による検証は、この戦略の有効性を強調し、ディープフェイクの発生に対処する可能性を示している。
論文 参考訳(メタデータ) (2023-10-25T06:00:37Z) - EVOPOSE: A Recursive Transformer For 3D Human Pose Estimation With
Kinematic Structure Priors [72.33767389878473]
本研究では,3次元ポーズ推定を効果的に行うために,トランスフォーマーを用いたモデルEvoPoseを提案する。
構造的優先表現(Structure Priors Representation, SPR)モジュールは、人体パターンの豊富な構造的特徴として、人間の先行を表現している。
推定結果を利用して3Dポーズ出力にRecursive Refinement(RR)モジュールを印加し、同時に人間を注入する。
論文 参考訳(メタデータ) (2023-06-16T04:09:16Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Feature-level augmentation to improve robustness of deep neural networks
to affine transformations [22.323625542814284]
最近の研究では、畳み込みニューラルネットワークは小さな画像変換に対してうまく一般化しないことが明らかになっている。
ニューラルアーキテクチャの中間層にデータ拡張を導入することを提案する。
このような変換に対処するニューラルネットワークの能力を開発する。
論文 参考訳(メタデータ) (2022-02-10T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。