論文の概要: HDiffTG: A Lightweight Hybrid Diffusion-Transformer-GCN Architecture for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2505.04276v1
- Date: Wed, 07 May 2025 09:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.027627
- Title: HDiffTG: A Lightweight Hybrid Diffusion-Transformer-GCN Architecture for 3D Human Pose Estimation
- Title(参考訳): HDiffTG:3次元人物位置推定のための軽量ハイブリッド拡散変圧器GCNアーキテクチャ
- Authors: Yajie Fu, Chaorui Huang, Junwei Li, Hui Kong, Yibin Tian, Huakang Li, Zhiyuan Zhang,
- Abstract要約: HDiffTGは、Transformer、Graph Convolutional Network(GCN)、拡散モデルを統一されたフレームワークに統合する、新しい3Dヒューマンポース(3DHCN)メソッドである。
軽量な設計を維持しながら,HDiffTGはポーズ推定精度とロバスト性を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 21.823965837699166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose HDiffTG, a novel 3D Human Pose Estimation (3DHPE) method that integrates Transformer, Graph Convolutional Network (GCN), and diffusion model into a unified framework. HDiffTG leverages the strengths of these techniques to significantly improve pose estimation accuracy and robustness while maintaining a lightweight design. The Transformer captures global spatiotemporal dependencies, the GCN models local skeletal structures, and the diffusion model provides step-by-step optimization for fine-tuning, achieving a complementary balance between global and local features. This integration enhances the model's ability to handle pose estimation under occlusions and in complex scenarios. Furthermore, we introduce lightweight optimizations to the integrated model and refine the objective function design to reduce computational overhead without compromising performance. Evaluation results on the Human3.6M and MPI-INF-3DHP datasets demonstrate that HDiffTG achieves state-of-the-art (SOTA) performance on the MPI-INF-3DHP dataset while excelling in both accuracy and computational efficiency. Additionally, the model exhibits exceptional robustness in noisy and occluded environments. Source codes and models are available at https://github.com/CirceJie/HDiffTG
- Abstract(参考訳): 本稿では、トランスフォーマー、グラフ畳み込みネットワーク(GCN)、拡散モデルを統一したフレームワークに統合する新しい3Dヒューマンポース推定法であるHDiffTGを提案する。
HDiffTGはこれらの手法の強度を活用し、軽量な設計を維持しながらポーズ推定精度とロバスト性を大幅に改善する。
Transformerは、グローバルな時空間依存性をキャプチャし、GCNは局所骨格構造をモデル化し、拡散モデルは、グローバルな特徴と局所的な特徴の相補的バランスを達成し、微調整のためのステップバイステップの最適化を提供する。
この統合により、オクルージョンや複雑なシナリオ下でのポーズ推定を扱うモデルの能力が向上する。
さらに、統合モデルに軽量な最適化を導入し、性能を損なうことなく計算オーバーヘッドを低減するために目的関数設計を洗練する。
Human3.6MとMPI-INF-3DHPデータセットの評価結果は、HDiffTGがMPI-INF-3DHPデータセットの最先端(SOTA)性能を達成し、精度と計算効率の両方に優れていたことを示している。
さらに、このモデルはノイズや閉塞環境において例外的な堅牢性を示す。
ソースコードとモデルはhttps://github.com/CirceJie/HDiffTGで入手できる。
関連論文リスト
- Dynamic 3D KAN Convolution with Adaptive Grid Optimization for Hyperspectral Image Classification [12.168520751389622]
Kanetは改良された3D-DenseNetモデルであり、3D Kan Convとアダプティブグリッド更新機構で構成されている。
Kanetはネットワークの深さや幅を増大させることなく、3D動的専門家畳み込みシステムを通じてモデル表現能力を向上させる。
提案手法は、IN, UP, KSCデータセット上での優れた性能を示し、主流のハイパースペクトル画像分類手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-21T14:57:48Z) - UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction [52.32698071488864]
非常に大きな3DメッシュのCFD問題を効率的に解く新しいアーキテクチャであるFactized Implicit Global Convolution (FIGConv)を提案する。
FIGConvは、既存の3DニューラルCFDモデルよりも大幅に改善された2次複雑性の$O(N2)$を達成する。
業界標準のAhmedボディデータセットと大規模DrivAerNetデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:57:57Z) - Hyperspectral Images Efficient Spatial and Spectral non-Linear Model with Bidirectional Feature Learning [7.06787067270941]
本稿では,分類精度を高めつつ,データ量を大幅に削減する新しいフレームワークを提案する。
本モデルでは,空間特徴解析のための特殊ブロックによって補完されるスペクトル特徴を効率よく抽出するために,双方向逆畳み込みニューラルネットワーク(CNN)を用いる。
論文 参考訳(メタデータ) (2024-11-29T23:32:26Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - DiffHPE: Robust, Coherent 3D Human Pose Lifting with Diffusion [54.0238087499699]
拡散モデルにより,人間のポーズ推定精度,ロバスト性,コヒーレンス性が向上することを示す。
3D-HPEにおける拡散モデルを利用する新しい戦略であるDiffHPEを紹介する。
以上の結果から, 独立拡散モデルにより, 予測可能な性能が得られる一方で, 教師付きモデルと組み合わせて精度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-04T12:54:10Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - Generative Multi-Stream Architecture For American Sign Language
Recognition [15.717424753251674]
複雑なアプリケーションのための機能豊かさの低いデータセットのトレーニングは、人間のパフォーマンスよりも最適な収束を制限します。
本稿では,非現実性を危険にさらすことなく機能収束を改善することを目的とした,新たなハードウェアの必要性を排除した生成型マルチストリームアーキテクチャを提案する。
提案手法は,従来のモデルよりも0.45%,5.53%の精度で,トレーニングから1.42%の精度で95.62%の精度を達成している。
論文 参考訳(メタデータ) (2020-03-09T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。