論文の概要: LARNet: Latent Action Representation for Human Action Synthesis
- arxiv url: http://arxiv.org/abs/2110.10899v1
- Date: Thu, 21 Oct 2021 05:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 17:13:52.062654
- Title: LARNet: Latent Action Representation for Human Action Synthesis
- Title(参考訳): LARNet:人間行動合成のための潜在行動表現
- Authors: Naman Biyani, Aayush J Rana, Shruti Vyas, Yogesh S Rawat
- Abstract要約: 我々は、人間のアクションビデオを生成するための新しいエンドツーエンドアプローチであるLARNetを提案する。
我々は、推論中に駆動ビデオが不要になるのを避けるために、潜時空間でのアクションダイナミクスを学習する。
提案手法を実世界の4つの行動データセットで評価する。
- 参考スコア(独自算出の注目度): 3.3454373538792552
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present LARNet, a novel end-to-end approach for generating human action
videos. A joint generative modeling of appearance and dynamics to synthesize a
video is very challenging and therefore recent works in video synthesis have
proposed to decompose these two factors. However, these methods require a
driving video to model the video dynamics. In this work, we propose a
generative approach instead, which explicitly learns action dynamics in latent
space avoiding the need of a driving video during inference. The generated
action dynamics is integrated with the appearance using a recurrent
hierarchical structure which induces motion at different scales to focus on
both coarse as well as fine level action details. In addition, we propose a
novel mix-adversarial loss function which aims at improving the temporal
coherency of synthesized videos. We evaluate the proposed approach on four
real-world human action datasets demonstrating the effectiveness of the
proposed approach in generating human actions. The code and models will be made
publicly available.
- Abstract(参考訳): 我々は、人間のアクションビデオを生成するための新しいエンドツーエンドアプローチであるLARNetを提案する。
映像合成のための外観とダイナミクスの合同生成モデルは非常に困難であり、ビデオ合成における最近の研究はこれら2つの因子を分解することを提案した。
しかし、これらの手法は動画力学をモデル化するために駆動ビデオを必要とする。
本研究では,推論中に動画を再生する必要をなくし,潜在空間における動作ダイナミクスを明示的に学習する生成手法を提案する。
生成したアクションダイナミクスは、異なるスケールでの動きを、粗さと細かなレベルのアクション詳細の両方に集中させる反復的な階層構造を用いて、外観と統合される。
さらに,合成ビデオの時間的コヒーレンシー向上を目的とした,新しい混合対逆損失関数を提案する。
提案手法の有効性を実証した4つの実世界の人間行動データセットに対する提案手法の評価を行った。
コードとモデルは公開される予定だ。
関連論文リスト
- iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
マルチモーダル信号を統合するスケーラブルな自動回帰変換フレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
我々の研究は、インタラクティブな汎用世界モデルの開発を進め、生成ビデオモデルと実践的なモデルベース強化学習アプリケーションとのギャップを埋める。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人インタラクションシナリオにおいて,人の全身反応運動を合成する拡散モデルReMoSを提案する。
ReMoSはペアダンス、忍術、キックボクシング、アクロバティックといった難解な2人のシナリオにまたがってデモを行う。
また,全体動作と指動作を含む2人インタラクションのためのReMoCapデータセットも提供した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - NIFTY: Neural Object Interaction Fields for Guided Human Motion
Synthesis [21.650091018774972]
我々は、特定の物体に付随する神経相互作用場を作成し、人間のポーズを入力として与えられた有効な相互作用多様体までの距離を出力する。
この相互作用場は、対象条件付きヒトの運動拡散モデルのサンプリングを導く。
いくつかの物体で座ったり持ち上げたりするための現実的な動きを合成し、動きの質や動作完了の成功の観点から、代替のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-14T17:59:38Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [42.925592662547814]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - Pose-guided Generative Adversarial Net for Novel View Action Synthesis [6.019777076722422]
アクションビデオが与えられた場合、ゴールは目に見えない視点から同じアクションを生成することです。
我々は Pose-guided Action Separable Generative Adversarial Net (PAS-GAN) という新しいフレームワークを提案する。
我々は、ターゲットビューにおけるシーケンシャルな映像特徴を効果的に生成するために、新しいローカル・グローバル空間変換モジュールを用いる。
論文 参考訳(メタデータ) (2021-10-15T10:33:09Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。