論文の概要: Conditional Temporal Variational AutoEncoder for Action Video Prediction
- arxiv url: http://arxiv.org/abs/2108.05658v1
- Date: Thu, 12 Aug 2021 10:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:32:43.414399
- Title: Conditional Temporal Variational AutoEncoder for Action Video Prediction
- Title(参考訳): 動作映像予測のための条件付き時間変動オートエンコーダ
- Authors: Xiaogang Xu, Yi Wang, Liwei Wang, Bei Yu, Jiaya Jia
- Abstract要約: ACT-VAEは、単一の入力画像からアクションクリップのポーズシーケンスを予測する。
プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
- 参考スコア(独自算出の注目度): 66.63038712306606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To synthesize a realistic action sequence based on a single human image, it
is crucial to model both motion patterns and diversity in the action video.
This paper proposes an Action Conditional Temporal Variational AutoEncoder
(ACT-VAE) to improve motion prediction accuracy and capture movement diversity.
ACT-VAE predicts pose sequences for an action clips from a single input image.
It is implemented as a deep generative model that maintains temporal coherence
according to the action category with a novel temporal modeling on latent
space. Further, ACT-VAE is a general action sequence prediction framework. When
connected with a plug-and-play Pose-to-Image (P2I) network, ACT-VAE can
synthesize image sequences. Extensive experiments bear out our approach can
predict accurate pose and synthesize realistic image sequences, surpassing
state-of-the-art approaches. Compared to existing methods, ACT-VAE improves
model accuracy and preserves diversity.
- Abstract(参考訳): 単一の人間の画像に基づいてリアルなアクションシーケンスを合成するためには、アクションビデオの動作パターンと多様性の両方をモデル化することが重要である。
本稿では,動作予測精度の向上と動きの多様性の獲得を目的とした動作条件時変自動エンコーダ(ACT-VAE)を提案する。
ACT-VAEは単一の入力画像からアクションクリップのポーズシーケンスを予測する。
動作カテゴリに応じて時間的コヒーレンスを維持する深層生成モデルとして実装され, 潜時空間上での新しい時間的モデリングを行う。
さらにACT-VAEは一般的なアクションシーケンス予測フレームワークである。
プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
広範な実験により,本手法は正確なポーズを予測し,最先端のアプローチを上回って現実的な画像シーケンスを合成できることがわかった。
既存の方法と比較して、ACT-VAEはモデルの精度を改善し、多様性を維持する。
関連論文リスト
- Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Coherent Temporal Synthesis for Incremental Action Segmentation [42.46228728930902]
本稿では、インクリメンタルなアクションセグメンテーションのためのビデオデータ再生手法を初めて検討する。
本稿では,個々のフレームを格納する代わりに生成モデルを用いて行動を表現するテンポラリ・コヒーレント・アクション・モデルを提案する。
Breakfastデータセットの10タスクのインクリメンタルセットアップでは,ベースラインと比較して最大22%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-03-10T06:07:06Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Action-Conditioned 3D Human Motion Synthesis with Transformer VAE [44.523477804533364]
我々は、現実的で多様な人間の動き系列の行動条件生成の問題に取り組む。
動作シーケンスを完了または拡張する手法とは対照的に、このタスクは初期ポーズやシーケンスを必要としない。
生成的変分オートエンコーダを訓練することにより、人間の動きに対する行動認識の潜在表現を学ぶ。
論文 参考訳(メタデータ) (2021-04-12T17:40:27Z) - Learning a Generative Motion Model from Image Sequences based on a
Latent Motion Matrix [8.774604259603302]
画像列の時間的登録をシミュレートして確率的動きモデルを学ぶ。
3つの最先端登録アルゴリズムと比較して,登録精度と時間的にスムーズな整合性が改善された。
また, フレームの欠落のあるシーケンスからの動作再構成を改良し, 動作解析, シミュレーション, 超解像に対するモデルの適用性を実証した。
論文 参考訳(メタデータ) (2020-11-03T14:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。