論文の概要: Spatio-temporal motion completion using a sequence of latent primitives
- arxiv url: http://arxiv.org/abs/2206.13142v1
- Date: Mon, 27 Jun 2022 09:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:08:12.638253
- Title: Spatio-temporal motion completion using a sequence of latent primitives
- Title(参考訳): 潜在性プリミティブ列を用いた時空間運動完了
- Authors: Mathieu Marsot, Stefanie Wuhrer, Jean-Sebastien Franco, Anne
H\'el\`ene Olivier
- Abstract要約: 我々は、時間とともに変形するアクターの時間的コヒーレントな4D表現を、追跡されていない3D点雲のサンプルシーケンスから計算する。
本研究では,本手法が最先端の動作先行よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.4807704685689247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a markerless performance capture method that computes a temporally
coherent 4D representation of an actor deforming over time from a sparsely
sampled sequence of untracked 3D point clouds. Our method proceeds by latent
optimization with a spatio-temporal motion prior.
Recently, task generic motion priors have been introduced and propose a
coherent representation of human motion based on a single latent code, with
encouraging results with short sequences and given temporal correspondences.
Extending these methods to longer sequences without correspondences is all but
straightforward. One latent code proves inefficient to encode longer term
variability, and latent space optimization will be very susceptible to
erroneous local minima due to possible inverted pose fittings.
We address both problems by learning a motion prior that encodes a 4D human
motion sequence into a sequence of latent primitives instead of one latent
code. We also propose an additional mapping encoder which directly projects a
sequence of point clouds into the learned latent space to provide a good
initialization of the latent representation at inference time. Our temporal
decoding from latent space is implicit and continuous in time, providing
flexibility with temporal resolution. We show experimentally that our method
outperforms state-of-the-art motion priors.
- Abstract(参考訳): 本研究では,追跡されていない3次元点雲のスパースサンプリング列から時間とともに変形するアクタの時間的コヒーレントな4次元表現を計算するマーカーレスパフォーマンスキャプチャ手法を提案する。
本手法は時空間運動に先行して潜在最適化を行う。
近年,タスク・ジェネリック・モーション・プリエントが導入され,単一の潜在コードに基づく人間の動作のコヒーレント表現が提案されている。
これらのメソッドを対応のない長いシーケンスに拡張するのは、ほとんど単純です。
ある潜伏符号は、長期の変動性を符号化する非効率さを証明し、潜伏空間最適化は、逆ポーズフィッティングの可能性があるため、誤った局所ミニマの影響を受けやすい。
4次元の人間の動き列を1つの潜在コードではなく、潜伏するプリミティブのシーケンスにエンコードする動きを事前に学習することで、両方の問題に対処する。
また,学習した潜在空間に直接点雲の列を投影し,推論時の潜在表現の優れた初期化を提供するマッピングエンコーダを提案する。
潜時空間からの時間復号は暗黙的かつ連続的であり、時間分解能の柔軟性を提供する。
本手法が最先端動作よりも優れていることを実験的に示す。
関連論文リスト
- DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder
and Transformer Network [1.279257604152629]
本稿では,Spiral Auto-Encoder と Transformer Network をベースとした,固定トポロジメッシュ列からの人間の行動認識モデルを提案する。
スパイラル畳み込みに基づく自動エンコーダを構築することにより、競合認識率と高いメモリ効率を示す。
論文 参考訳(メタデータ) (2023-06-30T11:49:00Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - MGTANet: Encoding Sequential LiDAR Points Using Long Short-Term
Motion-Guided Temporal Attention for 3D Object Detection [8.305942415868042]
ほとんどのLiDARセンサーは、リアルタイムで一連の点雲を生成する。
近年の研究では、一連の点集合に存在するコンテキストを活用することで、大幅な性能向上が達成されている。
複数の連続走査によって取得された点雲列を符号化する新しい3Dオブジェクト検出アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-01T11:24:47Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Skeleton-Based Action Segmentation with Multi-Stage Spatial-Temporal
Graph Convolutional Neural Networks [0.5156484100374059]
最先端のアクションセグメンテーションアプローチは、時間的畳み込みの複数の段階を使用する。
多段階時空間グラフ畳み込みニューラルネットワーク(MS-GCN)を提案する。
時間的畳み込みの初期段階を空間的時間的グラフ畳み込みに置き換え、関節の空間的構成をよりよく活用する。
論文 参考訳(メタデータ) (2022-02-03T17:42:04Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - 3DMotion-Net: Learning Continuous Flow Function for 3D Motion Prediction [12.323767993152968]
本研究では,従来の2つの連続したフレームから3次元物体の3次元運動を予測する問題に対処する。
本稿では,ディープニューラルネットワークのパワーを活用して3次元点雲の連続流れ関数を学習する自己教師型アプローチを提案する。
D-FAUST,SCAPE,TOSCAベンチマークデータセットについて広範な実験を行い,本手法が時間的に一貫性のない入力を処理可能であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:39:19Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。