論文の概要: TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting
- arxiv url: http://arxiv.org/abs/2003.14401v2
- Date: Wed, 1 Apr 2020 02:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:33:34.435075
- Title: TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting
- Title(参考訳): TransMoMo: 分散駆動型教師なしビデオモーションリターゲティング
- Authors: Zhuoqian Yang, Wentao Zhu, Wayne Wu, Chen Qian, Qiang Zhou, Bolei
Zhou, Chen Change Loy
- Abstract要約: TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。
動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。
本研究では,最先端手法に対する提案手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 107.39743751292028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a lightweight video motion retargeting approach TransMoMo that is
capable of transferring motion of a person in a source video realistically to
another video of a target person. Without using any paired data for
supervision, the proposed method can be trained in an unsupervised manner by
exploiting invariance properties of three orthogonal factors of variation
including motion, structure, and view-angle. Specifically, with loss functions
carefully derived based on invariance, we train an auto-encoder to disentangle
the latent representations of such factors given the source and target video
clips. This allows us to selectively transfer motion extracted from the source
video seamlessly to the target video in spite of structural and view-angle
disparities between the source and the target. The relaxed assumption of paired
data allows our method to be trained on a vast amount of videos needless of
manual annotation of source-target pairing, leading to improved robustness
against large structural variations and extreme motion in videos. We
demonstrate the effectiveness of our method over the state-of-the-art methods.
Code, model and data are publicly available on our project page
(https://yzhq97.github.io/transmomo).
- Abstract(参考訳): 対象者の別の映像に対して、ソース映像中の人の動きを現実的に伝達することのできる軽量な動画モーション再ターゲティング手法であるtransmomoを提案する。
提案手法は,2組のデータを用いなくても,動き,構造,ビューアングルを含む3つの直交因子の不変性を生かして,教師なしで訓練することができる。
具体的には,不均一性に基づく損失関数を注意深く導出することにより,音源と対象ビデオクリップの潜在表現を分離する自動エンコーダを訓練する。
これにより、ソースとターゲット間の構造的およびビューアングルの相違にもかかわらず、ソースビデオから抽出した動きをターゲットビデオにシームレスに転送することができる。
ペア化データのゆるやかな仮定は,ソースとターゲットのペアリングの手動アノテーションを必要とせず,膨大な量のビデオでトレーニングを行うことを可能にし,大きな構造変化に対する堅牢性やビデオの極端な動きを改善させる。
本研究では,最先端手法に対する提案手法の有効性を示す。
コード、モデル、データはプロジェクトページで公開されている(https://yzhq97.github.io/transmomo)。
関連論文リスト
- MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。
コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:59:40Z) - Don't Judge by the Look: Towards Motion Coherent Video Representation [56.09346222721583]
Motion Coherent Augmentation (MCA)は、ビデオ理解のためのデータ拡張手法である。
MCAはビデオの外観変化を導入し、静的な外観ではなく、モデルに動きのパターンを優先するよう暗黙的に促す。
論文 参考訳(メタデータ) (2024-03-14T15:53:04Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Motion-Augmented Self-Training for Video Recognition at Smaller Scale [32.73585552425734]
我々はMotionFitと呼ばれる最初のモーション強化自己訓練体制を提案します。
我々は,大規模な非ラベル映像コレクションに対して擬似ラベルを生成し,これらの擬似ラベルを出現モデルで予測し,知識の伝達を可能にした。
アクション認識やクリップ検索などのビデオ下流タスクに適した,強いモーション提示表現モデルを得る。
論文 参考訳(メタデータ) (2021-05-04T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。