論文の概要: Video Reenactment as Inductive Bias for Content-Motion Disentanglement
- arxiv url: http://arxiv.org/abs/2102.00324v1
- Date: Sat, 30 Jan 2021 22:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 21:05:38.809758
- Title: Video Reenactment as Inductive Bias for Content-Motion Disentanglement
- Title(参考訳): 映像再生によるコンテンツ・モーション・ディエンタングルメントのインダクティブバイアス
- Authors: Juan F. Hern\'andez Albarrac\'in and Ad\'in Ram\'irez Rivera
- Abstract要約: 本稿では,映像から映像や映像を遠ざけるための自己監督型モーショントランスファーVAEモデルを提案する。
我々のモデルは、独立して時間的一貫性をモデル化できるチャンクごとに生成される。
本稿では,最近提案したゆがみ指標を用いて実験を行い,映像のゆがみに対する様々な手法に優れることを示す。
- 参考スコア(独自算出の注目度): 0.6445605125467572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a self-supervised motion-transfer VAE model to disentangle
motion and content from video. Unlike previous work regarding content-motion
disentanglement in videos, we adopt a chunk-wise modeling approach and take
advantage of the motion information contained in spatiotemporal neighborhoods.
Our model yields per-chunk representations that can be modeled independently
and preserve temporal consistency. Hence, we reconstruct whole videos in a
single forward-pass. We extend the ELBO's log-likelihood term and include a
Blind Reenactment Loss as inductive bias to leverage motion disentanglement,
under the assumption that swapping motion features yields reenactment between
two videos. We test our model on recently-proposed disentanglement metrics, and
show that it outperforms a variety of methods for video motion-content
disentanglement. Experiments on video reenactment show the effectiveness of our
disentanglement in the input space where our model outperforms the baselines in
reconstruction quality and motion alignment.
- Abstract(参考訳): 動画から動きやコンテンツを切り離すための自己監視型モーショントランスファーVAEモデルを紹介します。
映像におけるコンテンツ・モーション・ディエングルメントに関するこれまでの研究とは異なり、私たちはチャンクワイズモデリングアプローチを採用し、時空間近傍に含まれるモーション情報を利用しています。
我々のモデルは、独立にモデル化され、時間的一貫性を保つことができるチャンク毎の表現を生成する。
したがって、ビデオ全体を単一のフォワードパスで再構築する。
ELBOのログの類似期間を延長し、モーション機能のスワップが2つのビデオ間の再現をもたらすと仮定して、インダクタティブバイアスとしてBlind Reenactment Lossを含む。
提案する不等角化指標を用いて実験を行い,ビデオモーションコンテンツの不等角化の方法が多種多様であることを示す。
映像再現実験では,モデルが復元品質と動作アライメントのベースラインを上回る入力空間における不連続の効果が示された。
- 全文 参考訳へのリンク
関連論文リスト
- Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Joint Modelling Based on Hierarchical Transformer for
Co-summarization [0.0]
ビデオ要約は、ビデオの要約(ストーリーボードまたはビデオスキム)を自動的に生成することを目的としており、大規模なビデオ検索とブラウジングを容易にする。
既存の手法の多くは、類似したビデオ間の相関を無視する個々のビデオに対して、動画要約を行う。
階層変換器(VJMHT)を併用したビデオジョイントモデリングを提案する。
論文 参考訳(メタデータ) (2021-12-27T01:54:35Z) - Deep Motion Prior for Weakly-Supervised Temporal Action Localization [35.25323276744999]
Weakly-Supervised Temporal Action Localization (WSTAL) は、ビデオレベルのラベルだけで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
現在、最先端のWSTALメソッドのほとんどは、Multi-Instance Learning (MIL)パイプラインに従っています。
既存の手法では,1)動作情報の不十分な使用,2)広汎なクロスエントロピートレーニング損失の相容れない2つの重要な欠点が指摘されている。
論文 参考訳(メタデータ) (2021-08-12T08:51:36Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-02-26T06:54:48Z) - InMoDeGAN: Interpretable Motion Decomposition Generative Adversarial
Network for Video Generation [11.247580943940916]
非条件のビデオ生成モデルであるInMoDeGANは(a)高品質なビデオを生成する。
生成したサンプルの制御を可能にするセマンティックなサブスペースにモーションを分解します。
論文 参考訳(メタデータ) (2021-01-08T15:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。