論文の概要: PUMPS: Skeleton-Agnostic Point-based Universal Motion Pre-Training for Synthesis in Human Motion Tasks
- arxiv url: http://arxiv.org/abs/2507.20170v1
- Date: Sun, 27 Jul 2025 08:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.164667
- Title: PUMPS: Skeleton-Agnostic Point-based Universal Motion Pre-Training for Synthesis in Human Motion Tasks
- Title(参考訳): PUMPS:スケルトン非依存点に基づくヒューマンモーションタスクの合成のためのユニバーサルモーション事前訓練
- Authors: Clinton Ansun Mo, Kun Hu, Chengjiang Long, Dong Yuan, Wan-Chi Siu, Zhiyong Wang,
- Abstract要約: モーションスケルトンは、骨階層を変換することで3Dキャラクターアニメーションを駆動するが、比例や構造の違いにより、骨格間での移動が困難になる。
TPC(Temporal Point Clouds)は、構造化されていない、相互互換のモーション表現を提供する。
TPCデータのためのプリミティブオートエンコーダアーキテクチャであるPUMPSを提案する。
- 参考スコア(独自算出の注目度): 44.19486142246208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motion skeletons drive 3D character animation by transforming bone hierarchies, but differences in proportions or structure make motion data hard to transfer across skeletons, posing challenges for data-driven motion synthesis. Temporal Point Clouds (TPCs) offer an unstructured, cross-compatible motion representation. Though reversible with skeletons, TPCs mainly serve for compatibility, not for direct motion task learning. Doing so would require data synthesis capabilities for the TPC format, which presents unexplored challenges regarding its unique temporal consistency and point identifiability. Therefore, we propose PUMPS, the primordial autoencoder architecture for TPC data. PUMPS independently reduces frame-wise point clouds into sampleable feature vectors, from which a decoder extracts distinct temporal points using latent Gaussian noise vectors as sampling identifiers. We introduce linear assignment-based point pairing to optimise the TPC reconstruction process, and negate the use of expensive point-wise attention mechanisms in the architecture. Using these latent features, we pre-train a motion synthesis model capable of performing motion prediction, transition generation, and keyframe interpolation. For these pre-training tasks, PUMPS performs remarkably well even without native dataset supervision, matching state-of-the-art performance. When fine-tuned for motion denoising or estimation, PUMPS outperforms many respective methods without deviating from its generalist architecture.
- Abstract(参考訳): モーションスケルトンは骨階層を変換することで3Dキャラクタアニメーションを駆動するが、比例や構造の違いは骨格間での移動を困難にし、データ駆動型モーション合成の課題を提起する。
TPC(Temporal Point Clouds)は、構造化されていない、相互互換のモーション表現を提供する。
骨格では可逆であるが、TPCは直接動作タスク学習ではなく、主に互換性のために機能する。
そのためには、TPCフォーマットのデータ合成機能が必要であり、ユニークな時間的一貫性と点識別性に関して、未解明の課題が提示される。
そこで本研究では,TPCデータのためのプリミティブオートエンコーダアーキテクチャであるPUMPSを提案する。
PUMPSは独立にフレームワイズ点雲をサンプリング可能な特徴ベクトルに還元し、デコーダは遅延ガウス雑音ベクトルをサンプリング識別子として、異なる時間点を抽出する。
本稿では,TPC再構成プロセスの最適化を目的とした線形代入型ポイントペアリングを導入し,アーキテクチャにおける高価なポイントワイドアテンション機構の利用を否定する。
これらの潜在特徴を用いて、動作予測、遷移生成、キーフレーム補間を行うことができる動き合成モデルを事前訓練する。
これらの事前トレーニングタスクに対して、PUMPSは、ネイティブなデータセットの監視や最先端のパフォーマンスの整合なしに、極めてよく機能する。
動きの特定や推定のために微調整された場合、PUMPSはジェネラリストアーキテクチャから逸脱することなく、多くの手法より優れる。
関連論文リスト
- Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - Motion Keyframe Interpolation for Any Human Skeleton via Temporally Consistent Point Cloud Sampling and Reconstruction [37.796387171573734]
Point Cloud-based Motion Representation (PC-MRL)は、運動学習のための骨格間の相互互換性を実現するための教師なしのアプローチである。
PC-MRLは、時間点雲サンプリングを用いた骨格難読化戦略と、点雲からの教師なし骨格復元法からなる。
我々は、制御されていないクラウド・ツー・骨格運動プロセスに必要な制限を克服するために、第1フレームオフセット準位(FOQ)とRPA(Rest Pose Augmentation)戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T03:03:04Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Temporal-Viewpoint Transportation Plan for Skeletal Few-shot Action
Recognition [38.27785891922479]
Joint tEmporalとcAmera viewpoiNt alIgnmEntによる3Dスケルトンに基づく動作認識のためのFew-shot Learning Pipeline
論文 参考訳(メタデータ) (2022-10-30T11:46:38Z) - 3D Skeleton-based Few-shot Action Recognition with JEANIE is not so
Na\"ive [28.720272938306692]
We propose a Few-shot Learning pipeline for 3D skeleton-based action recognition by Joint tEmporal and cAmera viewpoiNt alIgnmEnt。
論文 参考訳(メタデータ) (2021-12-23T16:09:23Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Skeleton-based Action Recognition via Spatial and Temporal Transformer
Networks [12.06555892772049]
本研究では,トランスフォーマーの自己アテンション演算子を用いて,関節間の依存関係をモデル化する空間-テンポラルトランスフォーマーネットワークを提案する。
提案したST-TRは,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
論文 参考訳(メタデータ) (2020-08-17T15:25:40Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。