論文の概要: Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2505.21309v1
- Date: Tue, 27 May 2025 15:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.742445
- Title: Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation
- Title(参考訳): ラインポースグラフを用いたスペクトル圧縮変換器による単眼3次元人物ポース推定
- Authors: Zenghao Zheng, Lianping Yang, Hegui Zhu, Mingrui Ye,
- Abstract要約: 本稿では,SCT(Spectral Compression Transformer)を導入し,シーケンス長を削減し,計算を高速化する。
LPGは、入力された2D関節位置を補完する骨格位置情報を生成する。
本モデルでは,計算効率を向上し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 1.8999296421549172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based 3D human pose estimation methods suffer from high computational costs due to the quadratic complexity of self-attention with respect to sequence length. Additionally, pose sequences often contain significant redundancy between frames. However, recent methods typically fail to improve model capacity while effectively eliminating sequence redundancy. In this work, we introduce the Spectral Compression Transformer (SCT) to reduce sequence length and accelerate computation. The SCT encoder treats hidden features between blocks as Temporal Feature Signals (TFS) and applies the Discrete Cosine Transform, a Fourier transform-based technique, to determine the spectral components to be retained. By filtering out certain high-frequency noise components, SCT compresses the sequence length and reduces redundancy. To further enrich the input sequence with prior structural information, we propose the Line Pose Graph (LPG) based on line graph theory. The LPG generates skeletal position information that complements the input 2D joint positions, thereby improving the model's performance. Finally, we design a dual-stream network architecture to effectively model spatial joint relationships and the compressed motion trajectory within the pose sequence. Extensive experiments on two benchmark datasets (i.e., Human3.6M and MPI-INF-3DHP) demonstrate that our model achieves state-of-the-art performance with improved computational efficiency. For example, on the Human3.6M dataset, our method achieves an MPJPE of 37.7mm while maintaining a low computational cost. Furthermore, we perform ablation studies on each module to assess its effectiveness. The code and models will be released.
- Abstract(参考訳): トランスフォーマーをベースとした3次元ポーズ推定手法は、シーケンス長に対する自己注意の2次複雑さにより、高い計算コストを被る。
さらに、ポーズシーケンスはフレーム間の大きな冗長性を含むことが多い。
しかし、最近の手法は、シーケンスの冗長性を効果的に排除しながら、モデルキャパシティを改善するのに失敗する。
本研究では,SCT(Spectral Compression Transformer)を導入し,シーケンス長を削減し,計算を高速化する。
SCTエンコーダはブロック間の隠れた特徴をTFS(Temporal Feature Signals)として扱い、フーリエ変換に基づく離散コサイン変換を適用して保持するスペクトル成分を決定する。
特定の高周波ノイズ成分をフィルタリングすることにより、SCTはシーケンス長を圧縮し、冗長性を低減する。
入力シーケンスを事前の構造情報でさらに強化するため,線グラフ理論に基づくLine Pose Graph(LPG)を提案する。
LPGは入力された2D関節位置を補完する骨格位置情報を生成し、モデルの性能を向上させる。
最後に、ポーズ列内の空間的関節関係と圧縮された運動軌跡を効果的にモデル化するための二重ストリームネットワークアーキテクチャを設計する。
2つのベンチマークデータセット(Human3.6MとMPI-INF-3DHP)の大規模な実験により、我々のモデルは、計算効率を向上して最先端の性能を達成することを示した。
例えば、Human3.6Mデータセットでは、低い計算コストを維持しながら37.7mmのMPJPEを達成する。
さらに,各モジュールに対するアブレーション研究を行い,その有効性を評価する。
コードとモデルはリリースされる。
関連論文リスト
- Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。
粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。
我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-18T15:15:12Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Unfolding Framework with Prior of Convolution-Transformer Mixture and
Uncertainty Estimation for Video Snapshot Compressive Imaging [7.601695814245209]
本稿では, 連続する高速フレームを異なるマスクで変調し, 単一の計測でキャプチャする, ビデオスナップショット圧縮画像(SCI)の問題点について考察する。
最適化アルゴリズムとニューラルネットワークを組み合わせることで、ディープ・アンフォールディング・ネットワーク(DUN)は、逆問題の解決において大きな成果を上げた。
論文 参考訳(メタデータ) (2023-06-20T06:25:48Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Lifting Transformer for 3D Human Pose Estimation in Video [27.005291611674377]
本稿では,3次元ポーズ推定のための新しいトランスフォーマーアーキテクチャLifting Transformerを提案する。
バニラトランスフォーマーエンコーダ(VTE)は、2次元ポーズシーケンスの長距離依存性をモデル化するために用いられる。
修正されたVTEは、STE(Strided Transformer Encoder)と呼ばれ、VTEの出力に基づいて構築されます。
論文 参考訳(メタデータ) (2021-03-26T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。