論文の概要: KASportsFormer: Kinematic Anatomy Enhanced Transformer for 3D Human Pose Estimation on Short Sports Scene Video
- arxiv url: http://arxiv.org/abs/2507.20763v1
- Date: Mon, 28 Jul 2025 12:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.110021
- Title: KASportsFormer: Kinematic Anatomy Enhanced Transformer for 3D Human Pose Estimation on Short Sports Scene Video
- Title(参考訳): KASportsFormer:短距離スポーツシーン映像における3次元人物位置推定のための運動解剖学的拡張変換器
- Authors: Zhuoer Yin, Calvin Yeung, Tomohiro Suzuki, Ryota Tanaka, Keisuke Fujii,
- Abstract要約: スポーツのための新しい3Dポーズ推定フレームワークであるKASportsFormerを紹介する。
提案手法は,MPJPEの誤差を58.0mm,34.3mmとした。
- 参考スコア(独自算出の注目度): 4.653030985708889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent transformer based approaches have demonstrated impressive performance in solving real-world 3D human pose estimation problems. Albeit these approaches achieve fruitful results on benchmark datasets, they tend to fall short of sports scenarios where human movements are more complicated than daily life actions, as being hindered by motion blur, occlusions, and domain shifts. Moreover, due to the fact that critical motions in a sports game often finish in moments of time (e.g., shooting), the ability to focus on momentary actions is becoming a crucial factor in sports analysis, where current methods appear to struggle with instantaneous scenarios. To overcome these limitations, we introduce KASportsFormer, a novel transformer based 3D pose estimation framework for sports that incorporates a kinematic anatomy-informed feature representation and integration module. In which the inherent kinematic motion information is extracted with the Bone Extractor (BoneExt) and Limb Fuser (LimbFus) modules and encoded in a multimodal manner. This improved the capability of comprehending sports poses in short videos. We evaluate our method through two representative sports scene datasets: SportsPose and WorldPose. Experimental results show that our proposed method achieves state-of-the-art results with MPJPE errors of 58.0mm and 34.3mm, respectively. Our code and models are available at: https://github.com/jw0r1n/KASportsFormer
- Abstract(参考訳): 近年の変圧器によるアプローチは、現実世界の人間のポーズ推定問題を解く際、顕著な性能を示した。
これらのアプローチは、ベンチマークデータセット上で実りある結果をもたらすが、動きのぼやけ、オクルージョン、ドメインシフトによって妨げられるため、人間の動きが日常生活の行動よりも複雑であるスポーツシナリオに欠ける傾向にある。
さらに,スポーツゲームにおける批判的な動きが,瞬間的(シューティングなど)に終わることがしばしばあることから,スポーツ分析において瞬間的行動に焦点を合わせる能力が重要な要素になりつつある。
これらの制約を克服するために,KASportsFormerという新しいトランスフォーマーベースのスポーツ用3Dポーズ推定フレームワークを紹介した。
固有運動情報をBoneExt(BoneExt)およびLimb Fuser(LimbFus)モジュールで抽出し、マルチモーダルで符号化する。
これにより、短いビデオでスポーツポーズを解釈する能力が改善された。
本研究では,スポーツシーンの代表的な2つのデータセットであるSportsPoseとWorldPoseを用いて,本手法の評価を行った。
実験の結果,MPJPE誤差は58.0mm,34.3mmであった。
私たちのコードとモデルは、https://github.com/jw0r1n/KASportsFormerで利用可能です。
関連論文リスト
- AthleticsPose: Authentic Sports Motion Dataset on Athletic Field and Evaluation of Monocular 3D Pose Estimation Ability [4.991985467382602]
AthleticsPoseデータセットを導入し、運動場で様々なスポーツイベントを行う23人のアスリートからリアルの動きをキャプチャする。
その結果,AthleticsPoseでトレーニングしたモデルは,模擬スポーツ運動データセットでトレーニングしたベースラインモデルよりも有意に優れていた。
運動学的指標のケーススタディでは、このモデルは膝の角度の個人差をとらえる可能性を示したが、より高速な測定に苦慮した。
論文 参考訳(メタデータ) (2025-07-17T08:43:23Z) - Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - Multi-person Physics-based Pose Estimation for Combat Sports [0.689728655482787]
スパースマルチカメラを用いた戦闘スポーツにおける正確な3次元ポーズ推定のための新しい枠組みを提案する。
提案手法は,トランスフォーマーを用いたトップダウン手法により,堅牢なマルチビュー2Dポーズトラッキングを実現する。
我々はさらに、多対人物理に基づく軌道最適化のステップを導入することにより、ポーズリアリズムとロバスト性をさらに強化する。
論文 参考訳(メタデータ) (2025-04-11T00:08:14Z) - AthletePose3D: A Benchmark Dataset for 3D Human Pose Estimation and Kinematic Validation in Athletic Movements [4.653030985708889]
AthletePose3Dは、高速で高速な運動運動をキャプチャするために設計された、新しいデータセットである。
本研究では,SOTA (State-of-the-art monocular 2D and 3D pose Estimation model on the dataset。
論文 参考訳(メタデータ) (2025-03-10T16:16:02Z) - A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。
また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。
本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-12-23T08:26:00Z) - Physics-based Motion Retargeting from Sparse Inputs [73.94570049637717]
商用AR/VR製品はヘッドセットとコントローラーのみで構成されており、ユーザーのポーズのセンサーデータは非常に限られている。
本研究では, 多様な形態のキャラクタに対して, 粗い人間のセンサデータからリアルタイムに動きをターゲットする手法を提案する。
アバターのポーズは、下半身のセンサー情報がないにもかかわらず、驚くほどよくユーザと一致していることを示す。
論文 参考訳(メタデータ) (2023-07-04T21:57:05Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Human Mesh Recovery from Multiple Shots [85.18244937708356]
疑似地上真理3Dヒューマンメッシュを用いた長期シーケンスの3次元再構築とマイニングの改善のためのフレームワークを提案する。
得られたデータは,様々なメッシュ回復モデルのトレーニングに有用であることを示す。
編集メディアの大規模なライブラリーから3Dコンテンツを処理・分析するための扉を開くツールを開発した。
論文 参考訳(メタデータ) (2020-12-17T18:58:02Z) - Contact and Human Dynamics from Monocular Video [73.47466545178396]
既存のディープモデルは、ほぼ正確に見えるエラーを含むビデオから2Dと3Dキネマティックのポーズを予測する。
本稿では,最初の2次元と3次元のポーズ推定を入力として,映像系列から3次元の人間の動きを推定する物理に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-07-22T21:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。