論文の概要: Video Reenactment as Inductive Bias for Content-Motion Disentanglement
- arxiv url: http://arxiv.org/abs/2102.00324v1
- Date: Sat, 30 Jan 2021 22:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 21:05:38.809758
- Title: Video Reenactment as Inductive Bias for Content-Motion Disentanglement
- Title(参考訳): 映像再生によるコンテンツ・モーション・ディエンタングルメントのインダクティブバイアス
- Authors: Juan F. Hern\'andez Albarrac\'in and Ad\'in Ram\'irez Rivera
- Abstract要約: 本稿では,映像から映像や映像を遠ざけるための自己監督型モーショントランスファーVAEモデルを提案する。
我々のモデルは、独立して時間的一貫性をモデル化できるチャンクごとに生成される。
本稿では,最近提案したゆがみ指標を用いて実験を行い,映像のゆがみに対する様々な手法に優れることを示す。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a self-supervised motion-transfer VAE model to disentangle
motion and content from video. Unlike previous work regarding content-motion
disentanglement in videos, we adopt a chunk-wise modeling approach and take
advantage of the motion information contained in spatiotemporal neighborhoods.
Our model yields per-chunk representations that can be modeled independently
and preserve temporal consistency. Hence, we reconstruct whole videos in a
single forward-pass. We extend the ELBO's log-likelihood term and include a
Blind Reenactment Loss as inductive bias to leverage motion disentanglement,
under the assumption that swapping motion features yields reenactment between
two videos. We test our model on recently-proposed disentanglement metrics, and
show that it outperforms a variety of methods for video motion-content
disentanglement. Experiments on video reenactment show the effectiveness of our
disentanglement in the input space where our model outperforms the baselines in
reconstruction quality and motion alignment.
- Abstract(参考訳): 動画から動きやコンテンツを切り離すための自己監視型モーショントランスファーVAEモデルを紹介します。
映像におけるコンテンツ・モーション・ディエングルメントに関するこれまでの研究とは異なり、私たちはチャンクワイズモデリングアプローチを採用し、時空間近傍に含まれるモーション情報を利用しています。
我々のモデルは、独立にモデル化され、時間的一貫性を保つことができるチャンク毎の表現を生成する。
したがって、ビデオ全体を単一のフォワードパスで再構築する。
ELBOのログの類似期間を延長し、モーション機能のスワップが2つのビデオ間の再現をもたらすと仮定して、インダクタティブバイアスとしてBlind Reenactment Lossを含む。
提案する不等角化指標を用いて実験を行い,ビデオモーションコンテンツの不等角化の方法が多種多様であることを示す。
映像再現実験では,モデルが復元品質と動作アライメントのベースラインを上回る入力空間における不連続の効果が示された。
関連論文リスト
- CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities [56.5742116979914]
CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。
動作生成においては,VDMは早期に映像の動きを回復する傾向にあり,後期では被写体の詳細の回復に焦点をあてる傾向が見られた。
論文 参考訳(メタデータ) (2024-08-23T17:26:06Z) - Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。
本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。
我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文 参考訳(メタデータ) (2024-03-29T14:14:22Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Segmenting the motion components of a video: A long-term unsupervised model [5.801044612920816]
ビデオシーケンス上でのコヒーレントで安定した動作セグメンテーションを提供したいと思っています。
完全教師なし方式で動作する新しい長期光時間モデルを提案する。
4つのVOSに関する実験を報告し、競争力のある定量的結果を示した。
論文 参考訳(メタデータ) (2023-10-02T09:33:54Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization [23.245275661852446]
動きに着目した映像表現を学習するための自己教師付き手法を提案する。
我々は、同じローカルモーションダイナミクスを持つビデオ間の類似性を学ぶが、それ以外は異なる外観を持つ。
トレーニング済みビデオの25%しか使用していない場合,本手法では性能が維持される。
論文 参考訳(メタデータ) (2023-03-20T10:31:35Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-02-26T06:54:48Z) - TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting [107.39743751292028]
TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。
動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。
本研究では,最先端手法に対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-31T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。