論文の概要: Human Identity-Preserved Motion Retargeting in Video Synthesis by
Feature Disentanglement
- arxiv url: http://arxiv.org/abs/2204.06862v1
- Date: Thu, 14 Apr 2022 10:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 13:43:02.907647
- Title: Human Identity-Preserved Motion Retargeting in Video Synthesis by
Feature Disentanglement
- Title(参考訳): 特徴ディストレングルメントによる映像合成におけるヒューマンアイデンティティ保存モーションリターゲティング
- Authors: Jingzhe Ma and Shiqi Yu
- Abstract要約: 人間のアクションビデオにおけるほとんどの動作合成法は、入力された映像を運動(力学情報)と形状(静的情報)に分解する。
本稿では,対象映像からの主観非依存(共通動作内容)情報と対象映像からの主観非依存(個別化同一動作)情報とを組み合わせ,新たな動作合成手法を提案する。
実験により,被験者の身元が保存されている場合,提案手法はより自然に映像を合成できることが示された。
- 参考スコア(独自算出の注目度): 14.645468999921961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most motion retargeting methods in human action video synthesis decompose the
input video to motion (dynamic information) and shape (static information).
However, we observe if the dynamic information is directly transferred to
another subject, it will result in unnatural synthesised motion. This
phenomenon is mainly caused by neglecting subject-dependent information in
motion. To solve the problem, we propose a novel motion retargeting method
which can combine both subject-independent (common motion content) information
from a source video and subject-dependent (individualized identity motion)
information from a target video. So it can synthesize videos with a much
natural appearance along with identity-preserved motion. In the proposed method
two encoders are employed to extract identity and motion content
representations respectively. We employ the adaptive instance normalization
(AdaIN) layer in the generator and the instance normalization (IN) layer in the
motion content encoder to synthesize the new motion. Besides, we also collected
a dataset, named $Chuang101$, with 101 subjects in total. Each subject performs
identical dancing movement, and so it is convenient for feature disentanglement
among motion and identity of each subject. Furthermore, an efficient
quantitative metric for identify information is designed by gait recognition.
The experiments show the proposed method can synthesize videos more naturally
when the subject's identity is preserved.
- Abstract(参考訳): 人間のアクションビデオ合成におけるほとんどのモーションリターゲティング手法は、入力された映像を運動(動的情報)と形状(静的情報)に分解する。
しかし, 動的情報が他の被験者に直接伝達された場合, 不自然な合成運動が生じる。
この現象は、主に動作中の被写体依存情報を無視することによって引き起こされる。
そこで本研究では,対象映像からの主観非依存(共通動作内容)情報と,対象映像からの主観依存(個別化同一動作)情報とを組み合わせ,新たな動き再ターゲティング手法を提案する。
そのため、動画を自然な外観で合成し、身元を保存した動きを合成することができる。
提案手法では,2つのエンコーダを用いて識別表現と動作内容表現をそれぞれ抽出する。
我々は,ジェネレータの適応インスタンス正規化(adain)層と,モーションコンテンツエンコーダのインスタンス正規化(in)層を用いて新しい動作を合成する。
さらに私たちは,$chuang101$というデータセットも収集しました。
各被写体は同一の舞踊運動を行うため、各被写体の動きと同一性の間の特徴的絡み合いに便利である。
さらに、歩行認識により、情報を特定するための効率的な定量的指標を設計する。
提案手法は,被験者の身元を保存した場合に,より自然に映像を合成できることを示す。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z) - Flow Guided Transformable Bottleneck Networks for Motion Retargeting [29.16125343915916]
既存の取り組みでは、対象者ごとの長いトレーニング映像を利用して、対象者固有のモーショントランスファーモデルをトレーニングしている。
ターゲットからの1枚または数枚の画像しか必要としないモーショントランスファー技術が近年注目されている。
本稿では,トランスフォーマブル・ボトルネックネットワークにヒントを得て,画像内容の暗黙の容積表現に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-14T21:58:30Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。