論文の概要: Real-Time ESFP: Estimating, Smoothing, Filtering, and Pose-Mapping
- arxiv url: http://arxiv.org/abs/2506.21234v1
- Date: Thu, 26 Jun 2025 13:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.095117
- Title: Real-Time ESFP: Estimating, Smoothing, Filtering, and Pose-Mapping
- Title(参考訳): リアルタイムESFP: 推定、平滑化、フィルタリング、ポーズ・マッピング
- Authors: Qifei Cui, Yuang Zhou, Ruichen Deng,
- Abstract要約: 本稿では,単眼のRGB映像を低コストな4-DoFデスクトップアームのための実行可能なジョイントトラジェクトリに変換するエンド・ツー・エンドパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.8029049649310211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents ESFP, an end-to-end pipeline that converts monocular RGB video into executable joint trajectories for a low-cost 4-DoF desktop arm. ESFP comprises four sequential modules. (1) Estimating: ROMP lifts each frame to a 24-joint 3-D skeleton. (2) Smoothing: the proposed HPSTM-a sequence-to-sequence Transformer with self-attention-combines long-range temporal context with a differentiable forward-kinematics decoder, enforcing constant bone lengths and anatomical plausibility while jointly predicting joint means and full covariances. (3) Filtering: root-normalized trajectories are variance-weighted according to HPSTM's uncertainty estimates, suppressing residual noise. (4) Pose-Mapping: a geometric retargeting layer transforms shoulder-elbow-wrist triples into the uArm's polar workspace, preserving wrist orientation.
- Abstract(参考訳): 本稿では,低コストな4-DoFデスクトップアーム用単眼RGB動画を実行可能なジョイントトラジェクトリに変換するエンド・ツー・エンドパイプラインであるESFPについて述べる。
ESFPは4つの逐次モジュールから構成される。
1)推定:ROMPは各フレームを24関節の3D骨格に持ち上げる。
2)本提案したHPSTM-aSequence-to-Sequence Transformerは,関節手段と完全共分散を共同で予測しながら,骨長と解剖学的妥当性を一定に保ちながら,異なる前方運動量デコーダを持つ長期的文脈を呈する。
(3)フィルタリング: 根正規化軌道はHPSTMの不確実性推定に基づいて分散重み付けされ、残音を抑制する。
(4) ポース・マッピング(Pose-Mapping): 幾何的リターゲティング・レイヤーは、肩肘首のトリプルをuArmの極性ワークスペースに変換し、手首の向きを保つ。
関連論文リスト
- PoseGRAF: Geometric-Reinforced Adaptive Fusion for Monocular 3D Human Pose Estimation [5.223657684081615]
既存の単眼的な3次元ポーズ推定法は, 骨格の内在方向と角方向の相関性を見越しながら, 関節位置の特徴に依存している。
これらの課題に対処するためのPoseGRAFフレームワークを提案する。
Human3.6M と MPI-INF-3DHP のデータセットによる実験結果から,本手法が最先端の手法を超えることが示された。
論文 参考訳(メタデータ) (2025-06-17T14:59:56Z) - St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z) - DiST-4D: Disentangled Spatiotemporal Diffusion with Metric Depth for 4D Driving Scene Generation [50.01520547454224]
現在の生成モデルは、時空間外挿と空間新規ビュー合成(NVS)を同時にサポートする4次元駆動シーンの合成に苦慮している
本研究では,2つの拡散過程に分散するDiST-4Dを提案する。DST-Tは過去の観測結果から直接,将来の距離深度と多視点RGBシーケンスを予測し,DST-Sは,既存の視点でのみ空間的NVSを訓練し,サイクル整合性を実現する。
実験により、DiST-4Dは時間的予測とNVSタスクの両方において最先端のパフォーマンスを達成し、同時に計画関連評価において競合性能を提供することが示された。
論文 参考訳(メタデータ) (2025-03-19T13:49:48Z) - PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D
Human Pose Estimation [19.028127284305224]
本稿では、周波数領域における長周期スケルトン配列のコンパクトな表現を利用して、受容場を効率的にスケールアップするPoseFormerV2を提案する。
PoseFormerに最小限の変更を加えることで、提案手法は時間領域と周波数領域の両方の機能を効果的に融合させ、前駆体よりも高速なトレードオフを享受する。
論文 参考訳(メタデータ) (2023-03-30T15:45:51Z) - Pose-Oriented Transformer with Uncertainty-Guided Refinement for
2D-to-3D Human Pose Estimation [51.00725889172323]
本研究では,3次元ポーズ推定のための不確実性ガイド付き多目的変換器(POT)を提案する。
我々はまず,人骨のトポロジーを明示的に活用するために,新しいポーズ指向の自己注意機構と距離関連位置埋め込みを開発した。
本稿では,特に難解な関節に対するPOTからのポーズ予測を洗練させるために,不確実性誘導型リファインメントネットワーク(UGRN)を提案する。
論文 参考訳(メタデータ) (2023-02-15T00:22:02Z) - (Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network
Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。
提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。
その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文 参考訳(メタデータ) (2022-10-08T12:22:10Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。