論文の概要: Video Reenactment as Inductive Bias for Content-Motion Disentanglement
- arxiv url: http://arxiv.org/abs/2102.00324v1
- Date: Sat, 30 Jan 2021 22:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 21:05:38.809758
- Title: Video Reenactment as Inductive Bias for Content-Motion Disentanglement
- Title(参考訳): 映像再生によるコンテンツ・モーション・ディエンタングルメントのインダクティブバイアス
- Authors: Juan F. Hern\'andez Albarrac\'in and Ad\'in Ram\'irez Rivera
- Abstract要約: 本稿では,映像から映像や映像を遠ざけるための自己監督型モーショントランスファーVAEモデルを提案する。
我々のモデルは、独立して時間的一貫性をモデル化できるチャンクごとに生成される。
本稿では,最近提案したゆがみ指標を用いて実験を行い,映像のゆがみに対する様々な手法に優れることを示す。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a self-supervised motion-transfer VAE model to disentangle
motion and content from video. Unlike previous work regarding content-motion
disentanglement in videos, we adopt a chunk-wise modeling approach and take
advantage of the motion information contained in spatiotemporal neighborhoods.
Our model yields per-chunk representations that can be modeled independently
and preserve temporal consistency. Hence, we reconstruct whole videos in a
single forward-pass. We extend the ELBO's log-likelihood term and include a
Blind Reenactment Loss as inductive bias to leverage motion disentanglement,
under the assumption that swapping motion features yields reenactment between
two videos. We test our model on recently-proposed disentanglement metrics, and
show that it outperforms a variety of methods for video motion-content
disentanglement. Experiments on video reenactment show the effectiveness of our
disentanglement in the input space where our model outperforms the baselines in
reconstruction quality and motion alignment.
- Abstract(参考訳): 動画から動きやコンテンツを切り離すための自己監視型モーショントランスファーVAEモデルを紹介します。
映像におけるコンテンツ・モーション・ディエングルメントに関するこれまでの研究とは異なり、私たちはチャンクワイズモデリングアプローチを採用し、時空間近傍に含まれるモーション情報を利用しています。
我々のモデルは、独立にモデル化され、時間的一貫性を保つことができるチャンク毎の表現を生成する。
したがって、ビデオ全体を単一のフォワードパスで再構築する。
ELBOのログの類似期間を延長し、モーション機能のスワップが2つのビデオ間の再現をもたらすと仮定して、インダクタティブバイアスとしてBlind Reenactment Lossを含む。
提案する不等角化指標を用いて実験を行い,ビデオモーションコンテンツの不等角化の方法が多種多様であることを示す。
映像再現実験では,モデルが復元品質と動作アライメントのベースラインを上回る入力空間における不連続の効果が示された。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Unsupervised motion segmentation in one go: Smooth long-term model over
a video [6.853165736531941]
完全教師なし方式で動作させる新しい長期的モデルを提案する。
連続する光学フロー(OF)フィールドの体積を入力として、ビデオ上に一連のコヒーレントな動きのセグメントを出力する。
定量的な結果を得た4つのVOSベンチマーク実験について報告する。
論文 参考訳(メタデータ) (2023-10-02T09:33:54Z) - LLM-grounded Video Diffusion Models [61.399690543666395]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトと格闘し、制限されたまたは誤った動きを生成する。
所望の属性と動きパターンを持つビデオを生成するために,LLMによるビデオ拡散を導入する。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization [23.245275661852446]
動きに着目した映像表現を学習するための自己教師付き手法を提案する。
我々は、同じローカルモーションダイナミクスを持つビデオ間の類似性を学ぶが、それ以外は異なる外観を持つ。
トレーニング済みビデオの25%しか使用していない場合,本手法では性能が維持される。
論文 参考訳(メタデータ) (2023-03-20T10:31:35Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Deep Motion Prior for Weakly-Supervised Temporal Action Localization [35.25323276744999]
Weakly-Supervised Temporal Action Localization (WSTAL) は、ビデオレベルのラベルだけで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
現在、最先端のWSTALメソッドのほとんどは、Multi-Instance Learning (MIL)パイプラインに従っています。
既存の手法では,1)動作情報の不十分な使用,2)広汎なクロスエントロピートレーニング損失の相容れない2つの重要な欠点が指摘されている。
論文 参考訳(メタデータ) (2021-08-12T08:51:36Z) - Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-02-26T06:54:48Z) - TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting [107.39743751292028]
TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。
動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。
本研究では,最先端手法に対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-31T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。