論文の概要: SCJD: Sparse Correlation and Joint Distillation for Efficient 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2503.14097v1
- Date: Tue, 18 Mar 2025 10:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:53.150270
- Title: SCJD: Sparse Correlation and Joint Distillation for Efficient 3D Human Pose Estimation
- Title(参考訳): SCJD : 効率的な3次元姿勢推定のためのスパース相関とジョイント蒸留
- Authors: Weihong Chen, Xuemiao Xu, Haoxin Yang, Yi Xie, Peng Xiao, Cheng Xu, Huaidong Zhang, Pheng-Ann Heng,
- Abstract要約: 既存の3Dヒューマンポース推定法(HPE)は高い精度を達成しているが、計算オーバーヘッドと遅い推測に悩まされている。
3次元HPEの効率と精度のバランスをとる新しいフレームワークであるスパース相関・ジョイント蒸留(SCJD)を提案する。
- 参考スコア(独自算出の注目度): 46.11256896464582
- License:
- Abstract: Existing 3D Human Pose Estimation (HPE) methods achieve high accuracy but suffer from computational overhead and slow inference, while knowledge distillation methods fail to address spatial relationships between joints and temporal correlations in multi-frame inputs. In this paper, we propose Sparse Correlation and Joint Distillation (SCJD), a novel framework that balances efficiency and accuracy for 3D HPE. SCJD introduces Sparse Correlation Input Sequence Downsampling to reduce redundancy in student network inputs while preserving inter-frame correlations. For effective knowledge transfer, we propose Dynamic Joint Spatial Attention Distillation, which includes Dynamic Joint Embedding Distillation to enhance the student's feature representation using the teacher's multi-frame context feature, and Adjacent Joint Attention Distillation to improve the student network's focus on adjacent joint relationships for better spatial understanding. Additionally, Temporal Consistency Distillation aligns the temporal correlations between teacher and student networks through upsampling and global supervision. Extensive experiments demonstrate that SCJD achieves state-of-the-art performance. Code is available at https://github.com/wileychan/SCJD.
- Abstract(参考訳): 既存の3Dヒューマンポース推定法(HPE)は高い精度を達成できるが、計算オーバーヘッドと遅い推論に苦しむ一方、知識蒸留法は複数フレーム入力における関節と時間的相関の空間的関係に対処できない。
本稿では,3次元HPEの効率性と精度を両立させる新しいフレームワークであるスパース相関・ジョイント蒸留(SCJD)を提案する。
SCJDはスパース相関入力シーケンスダウンサンプリングを導入し、フレーム間の相関を保ちながら学生ネットワーク入力の冗長性を低減した。
効果的な知識伝達のために,教師のマルチフレーム・コンテクスト特徴を用いた学生の特徴表現を強化するダイナミック・ジョイント・コンテクスト・インベディング・インストラクション(Dynamic Joint Embedding Distillation)と,隣接型ジョイント・アテンション・インスティテューション(Adjacent Joint Attention Distillation)とを含むダイナミック・ジョイント・コンテクスト・アテンション・インテンション・インストラクション(Dynamic Joint Space Attention Distillation)を提案する。
さらに,教師と学生のネットワーク間の時間的相関を,アップサンプリングと世界的監督を通じて調整する。
大規模な実験により、SCJDは最先端の性能を達成することが示された。
コードはhttps://github.com/wileychan/SCJD.comで入手できる。
関連論文リスト
- Efficient Semantic Matching with Hypercolumn Correlation [58.92933923647451]
HCCNetは効率的で効果的なセマンティックマッチング手法である。
マルチスケール相関写像の完全なポテンシャルを利用する。
4D相関マップ上では、高価なマッチング関係のマイニングに頼っている。
論文 参考訳(メタデータ) (2023-11-07T20:40:07Z) - Spatio-temporal MLP-graph network for 3D human pose estimation [8.267311047244881]
グラフ畳み込みネットワークとその変種は3次元人間のポーズ推定において大きな可能性を示している。
暗黙の伝搬フェアリングを用いたグラフフィルタリングにより得られる新しい重み付きヤコビ特徴則を導入する。
また, 関節間の関係を学習するために, 隣接変調を用いた。
論文 参考訳(メタデータ) (2023-08-29T14:00:55Z) - Spatiotemporal Decouple-and-Squeeze Contrastive Learning for
Semi-Supervised Skeleton-based Action Recognition [12.601122522537459]
骨格に基づく行動のより豊富な表現を学習するための新しいSDS-CL(Stemporal Deouple Contrastive Learning)フレームワークを提案する。
我々は,新しいテンポラル・スクイージング・ロス(STL),新しいテンポラル・スクイージング・ロス(TSL),およびグローバル・コントラスト・ロス(GL)を,フレームレベルでの空間的スクイージング関節と運動の特徴,関節レベルでの時間的スクイージング関節と運動の特徴,および骨格レベルでのグローバルな関節と運動特徴とを対比するために提示する。
論文 参考訳(メタデータ) (2023-02-05T06:52:25Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Learning High-DOF Reaching-and-Grasping via Dynamic Representation of
Gripper-Object Interaction [21.03434784990944]
本稿では,グリップと対象物との空間的相互作用を特徴付ける把握状態の効果的な表現を提案する。
IBSは,対象物に対する空間的関係で各指のきめ細かい制御を十分に通知するので,状態表現として驚くほど効果的である。
実験により, 円滑な把持動作を有する複雑な形状に対して, 高品質なデキスタラスグリップを生成することが示された。
論文 参考訳(メタデータ) (2022-04-03T07:03:54Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action
Recognition [46.836815779215456]
本稿では,骨格に基づく行動認識のための空間的注意ネットワーク(DSTA-Net)を提案する。
注意ブロックの構築には,空間的時間的注意分離,非結合位置符号化,空間的大域正規化という3つの手法が提案されている。
提案手法の有効性を検証するため,骨格に基づくジェスチャーと行動認識のための4つの挑戦的データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-07T07:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。