Fugu-MT 論文翻訳(概要): Video Reenactment as Inductive Bias for Content-Motion Disentanglement

論文の概要: Video Reenactment as Inductive Bias for Content-Motion Disentanglement

arxiv url: http://arxiv.org/abs/2102.00324v1
Date: Sat, 30 Jan 2021 22:07:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-02 21:05:38.809758
Title: Video Reenactment as Inductive Bias for Content-Motion Disentanglement
Title（参考訳）: 映像再生によるコンテンツ・モーション・ディエンタングルメントのインダクティブバイアス
Authors: Juan F. Hern\'andez Albarrac\'in and Ad\'in Ram\'irez Rivera
Abstract要約: 本稿では,映像から映像や映像を遠ざけるための自己監督型モーショントランスファーVAEモデルを提案する。我々のモデルは、独立して時間的一貫性をモデル化できるチャンクごとに生成される。本稿では,最近提案したゆがみ指標を用いて実験を行い,映像のゆがみに対する様々な手法に優れることを示す。
参考スコア（独自算出の注目度）: 0.6445605125467572
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a self-supervised motion-transfer VAE model to disentangle motion and content from video. Unlike previous work regarding content-motion disentanglement in videos, we adopt a chunk-wise modeling approach and take advantage of the motion information contained in spatiotemporal neighborhoods. Our model yields per-chunk representations that can be modeled independently and preserve temporal consistency. Hence, we reconstruct whole videos in a single forward-pass. We extend the ELBO's log-likelihood term and include a Blind Reenactment Loss as inductive bias to leverage motion disentanglement, under the assumption that swapping motion features yields reenactment between two videos. We test our model on recently-proposed disentanglement metrics, and show that it outperforms a variety of methods for video motion-content disentanglement. Experiments on video reenactment show the effectiveness of our disentanglement in the input space where our model outperforms the baselines in reconstruction quality and motion alignment.
Abstract（参考訳）: 動画から動きやコンテンツを切り離すための自己監視型モーショントランスファーVAEモデルを紹介します。映像におけるコンテンツ・モーション・ディエングルメントに関するこれまでの研究とは異なり、私たちはチャンクワイズモデリングアプローチを採用し、時空間近傍に含まれるモーション情報を利用しています。我々のモデルは、独立にモデル化され、時間的一貫性を保つことができるチャンク毎の表現を生成する。したがって、ビデオ全体を単一のフォワードパスで再構築する。 ELBOのログの類似期間を延長し、モーション機能のスワップが2つのビデオ間の再現をもたらすと仮定して、インダクタティブバイアスとしてBlind Reenactment Lossを含む。提案する不等角化指標を用いて実験を行い,ビデオモーションコンテンツの不等角化の方法が多種多様であることを示す。映像再現実験では,モデルが復元品質と動作アライメントのベースラインを上回る入力空間における不連続の効果が示された。

関連論文リスト

SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文参考訳（メタデータ） (2025-06-01T19:55:33Z)
Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文参考訳（メタデータ） (2025-06-01T13:28:04Z)
Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models [18.41701130228042]
動きのカスタマイズは、拡散モデル(DM)に適応して、同じ動きの概念の一連のビデオクリップによって指定された動きを持つビデオを生成することを目的としている。本稿では,TAP (temporal attention purification) とAH ( appearance highway) の2つの新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-28T05:40:20Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities [56.5742116979914]
CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。動作生成においては,VDMは早期に映像の動きを回復する傾向にあり,後期では被写体の詳細の回復に焦点をあてる傾向が見られた。
論文参考訳（メタデータ） (2024-08-23T17:26:06Z)
Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文参考訳（メタデータ） (2024-03-29T14:14:22Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文参考訳（メタデータ） (2023-12-07T18:59:03Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
Segmenting the motion components of a video: A long-term unsupervised model [5.801044612920816]
ビデオシーケンス上でのコヒーレントで安定した動作セグメンテーションを提供したいと思っています。完全教師なし方式で動作する新しい長期光時間モデルを提案する。 4つのVOSに関する実験を報告し、競争力のある定量的結果を示した。
論文参考訳（メタデータ） (2023-10-02T09:33:54Z)
LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。 LLM-grounded Video Diffusion (LVD)を紹介する。以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文参考訳（メタデータ） (2023-09-29T17:54:46Z)
Tubelet-Contrastive Self-Supervision for Video-Efficient Generalization [23.245275661852446]
動きに着目した映像表現を学習するための自己教師付き手法を提案する。我々は、同じローカルモーションダイナミクスを持つビデオ間の類似性を学ぶが、それ以外は異なる外観を持つ。トレーニング済みビデオの25%しか使用していない場合,本手法では性能が維持される。
論文参考訳（メタデータ） (2023-03-20T10:31:35Z)
Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文参考訳（メタデータ） (2022-10-27T02:45:48Z)
Dual-MTGAN: Stochastic and Deterministic Motion Transfer for Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文参考訳（メタデータ） (2021-02-26T06:54:48Z)
TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting [107.39743751292028]
TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。本研究では,最先端手法に対する提案手法の有効性を実証する。
論文参考訳（メタデータ） (2020-03-31T17:49:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。