論文の概要: Stochastic Image-to-Video Synthesis using cINNs
- arxiv url: http://arxiv.org/abs/2105.04551v1
- Date: Mon, 10 May 2021 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:48:39.425357
- Title: Stochastic Image-to-Video Synthesis using cINNs
- Title(参考訳): cINNを用いた確率的画像合成
- Authors: Michael Dorkenwald, Timo Milbich, Andreas Blattmann, Robin Rombach,
Konstantinos G. Derpanis, Bj\"orn Ommer
- Abstract要約: 条件付き可逆ニューラルネットワーク(cINN)は、静的および他のビデオ特性を独立してモデル化することによってビデオを説明することができる。
4つの多様なビデオデータセットの実験は、我々のアプローチの有効性を実証している。
- 参考スコア(独自算出の注目度): 22.5739334314885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video understanding calls for a model to learn the characteristic interplay
between static scene content and its dynamics: Given an image, the model must
be able to predict a future progression of the portrayed scene and, conversely,
a video should be explained in terms of its static image content and all the
remaining characteristics not present in the initial frame. This naturally
suggests a bijective mapping between the video domain and the static content as
well as residual information. In contrast to common stochastic image-to-video
synthesis, such a model does not merely generate arbitrary videos progressing
the initial image. Given this image, it rather provides a one-to-one mapping
between the residual vectors and the video with stochastic outcomes when
sampling. The approach is naturally implemented using a conditional invertible
neural network (cINN) that can explain videos by independently modelling static
and other video characteristics, thus laying the basis for controlled video
synthesis. Experiments on four diverse video datasets demonstrate the
effectiveness of our approach in terms of both the quality and diversity of the
synthesized results. Our project page is available at https://bit.ly/3t66bnU.
- Abstract(参考訳): 映像理解は、静的シーンコンテンツとそのダイナミクスの間の特徴的相互作用を学習するためのモデルを要求する: 画像が与えられたとき、モデルは、描写されたシーンの将来の進行を予測できなければならない。
これは当然、ビデオ領域と静的コンテンツ、および残余情報の間の単射的マッピングを示唆する。
一般的な確率的画像合成とは対照的に、そのようなモデルは初期画像の進行する任意のビデオを生成するだけではない。
この画像を考えると、サンプリング時に確率的な結果を伴う残留ベクトルとビデオの間の1対1のマッピングを提供する。
この手法は条件付き可逆ニューラルネットワーク(cINN)を用いて自然に実装され、静的および他のビデオ特性を独立にモデル化することにより、制御されたビデオ合成の基礎となる。
4つの多様なビデオデータセットに関する実験は、合成結果の品質と多様性の両方の観点から、このアプローチの有効性を示している。
私たちのプロジェクトページはhttps://bit.ly/3t66bnuで閲覧できます。
関連論文リスト
- Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis
via Bridging Image and Video Diffusion Models [43.16856756058962]
本稿では,BIVDiffと命名されたトレーニング不要な汎用ビデオ合成フレームワークを提案する。
まず、フレームワイド映像生成に画像拡散モデルを使用し、次いで、生成されたビデオ上でMixed Inversionを行い、最後に、時間的平滑化のためにビデオ拡散モデルに反転潜像を入力する。
BIVDiffの有効性と汎用性を検証するため、制御可能なビデオ生成ビデオ編集、ビデオインペイント、アウトペイントなど、幅広い映像生成タスクを実行する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [54.69152493715424]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Feature-Conditioned Cascaded Video Diffusion Models for Precise
Echocardiogram Synthesis [5.102090025931326]
我々は、ビデオモデリングのための解明された拡散モデルを拡張し、単一の画像から可視なビデオシーケンスを生成する。
我々の画像からシーケンスへのアプローチは、最近提案されたシーケンスからシーケンス生成手法よりも38ポイント高い93%のR2$スコアを達成する。
論文 参考訳(メタデータ) (2023-03-22T15:26:22Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。