Fugu-MT 論文翻訳(概要): Stochastic Image-to-Video Synthesis using cINNs

論文の概要: Stochastic Image-to-Video Synthesis using cINNs

arxiv url: http://arxiv.org/abs/2105.04551v1
Date: Mon, 10 May 2021 17:59:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-11 14:48:39.425357
Title: Stochastic Image-to-Video Synthesis using cINNs
Title（参考訳）: cINNを用いた確率的画像合成
Authors: Michael Dorkenwald, Timo Milbich, Andreas Blattmann, Robin Rombach, Konstantinos G. Derpanis, Bj\"orn Ommer
Abstract要約: 条件付き可逆ニューラルネットワーク(cINN)は、静的および他のビデオ特性を独立してモデル化することによってビデオを説明することができる。 4つの多様なビデオデータセットの実験は、我々のアプローチの有効性を実証している。
参考スコア（独自算出の注目度）: 22.5739334314885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video understanding calls for a model to learn the characteristic interplay between static scene content and its dynamics: Given an image, the model must be able to predict a future progression of the portrayed scene and, conversely, a video should be explained in terms of its static image content and all the remaining characteristics not present in the initial frame. This naturally suggests a bijective mapping between the video domain and the static content as well as residual information. In contrast to common stochastic image-to-video synthesis, such a model does not merely generate arbitrary videos progressing the initial image. Given this image, it rather provides a one-to-one mapping between the residual vectors and the video with stochastic outcomes when sampling. The approach is naturally implemented using a conditional invertible neural network (cINN) that can explain videos by independently modelling static and other video characteristics, thus laying the basis for controlled video synthesis. Experiments on four diverse video datasets demonstrate the effectiveness of our approach in terms of both the quality and diversity of the synthesized results. Our project page is available at https://bit.ly/3t66bnU.
Abstract（参考訳）: 映像理解は、静的シーンコンテンツとそのダイナミクスの間の特徴的相互作用を学習するためのモデルを要求する: 画像が与えられたとき、モデルは、描写されたシーンの将来の進行を予測できなければならない。これは当然、ビデオ領域と静的コンテンツ、および残余情報の間の単射的マッピングを示唆する。一般的な確率的画像合成とは対照的に、そのようなモデルは初期画像の進行する任意のビデオを生成するだけではない。この画像を考えると、サンプリング時に確率的な結果を伴う残留ベクトルとビデオの間の1対1のマッピングを提供する。この手法は条件付き可逆ニューラルネットワーク(cINN)を用いて自然に実装され、静的および他のビデオ特性を独立にモデル化することにより、制御されたビデオ合成の基礎となる。 4つの多様なビデオデータセットに関する実験は、合成結果の品質と多様性の両方の観点から、このアプローチの有効性を示している。私たちのプロジェクトページはhttps://bit.ly/3t66bnuで閲覧できます。

関連論文リスト

Can Text-to-Video Generation help Video-Language Alignment? [53.0276936367765]
最近のビデオ言語アライメントモデルはビデオのセットに基づいて訓練されており、それぞれに関連付けられた正のキャプションと、大きな言語モデルによって生成された負のキャプションがある。この手順の問題点は、否定的なキャプションが言語的バイアスをもたらす可能性があること、すなわち、概念は否定的なものとしてのみ見られ、ビデオと関連しないことである。本研究では,合成ビデオがこの問題を克服するのに有効かどうかを考察する。複数のジェネレータによる予備的な分析では、いくつかのタスクでは約束されているが、合成ビデオは、他のタスクではモデルの性能に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2025-03-24T10:02:22Z)
Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文参考訳（メタデータ） (2024-12-12T18:41:20Z)
Continuous Video Process: Modeling Videos as Continuous Multi-Dimensional Processes for Video Prediction [43.16308241800144]
本稿では,映像を連続的な多次元プロセスとして扱う新しいモデルクラスを提案する。我々は、KTH、BAIR、Human3.6M、UCF101などのベンチマークデータセットで検証された、ビデオ予測における最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-12-06T10:34:50Z)
Fine-gained Zero-shot Video Sampling [21.42513407755273]
我々は,$mathcalZS2$と表記されるZero-Shotビデオサンプリングアルゴリズムを提案する。 $mathcalZS2$は、トレーニングや最適化なしに高品質のビデオクリップを直接サンプリングすることができる。ゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れる。
論文参考訳（メタデータ） (2024-07-31T09:36:58Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
Video In-context Learning [46.40277880351059]
本稿では,既存のビデオクリップからモデルが始まり,様々な将来的なシーケンスを生成するビデオインコンテキスト学習について検討する。これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。
論文参考訳（メタデータ） (2024-07-10T04:27:06Z)
TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models [94.24861019513462]
TRIPは画像間拡散パラダイムの新しいレシピである。静的画像から派生した画像ノイズをピボットして、フレーム間の関係推論を共同でトリガーする。 WebVid-10M、DTDB、MSR-VTTデータセットに関する大規模な実験は、TRIPの有効性を示している。
論文参考訳（メタデータ） (2024-03-25T17:59:40Z)
Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文参考訳（メタデータ） (2024-01-10T23:26:41Z)
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文参考訳（メタデータ） (2023-10-31T17:58:17Z)
Feature-Conditioned Cascaded Video Diffusion Models for Precise Echocardiogram Synthesis [5.102090025931326]
我々は、ビデオモデリングのための解明された拡散モデルを拡張し、単一の画像から可視なビデオシーケンスを生成する。我々の画像からシーケンスへのアプローチは、最近提案されたシーケンスからシーケンス生成手法よりも38ポイント高い93%のR2$スコアを達成する。
論文参考訳（メタデータ） (2023-03-22T15:26:22Z)
Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文参考訳（メタデータ） (2022-03-04T21:09:13Z)
Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文参考訳（メタデータ） (2021-05-13T17:59:50Z)
Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文参考訳（メタデータ） (2021-04-06T17:24:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。