論文の概要: Strumming to the Beat: Audio-Conditioned Contrastive Video Textures
- arxiv url: http://arxiv.org/abs/2104.02687v1
- Date: Tue, 6 Apr 2021 17:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:44:00.347553
- Title: Strumming to the Beat: Audio-Conditioned Contrastive Video Textures
- Title(参考訳): beat:オーディオコンディション付きコントラストビデオテクスチャ
- Authors: Medhini Narasimhan, Shiry Ginosar, Andrew Owens, Alexei A. Efros,
Trevor Darrell
- Abstract要約: コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
- 参考スコア(独自算出の注目度): 112.6140796961121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a non-parametric approach for infinite video texture synthesis
using a representation learned via contrastive learning. We take inspiration
from Video Textures, which showed that plausible new videos could be generated
from a single one by stitching its frames together in a novel yet consistent
order. This classic work, however, was constrained by its use of hand-designed
distance metrics, limiting its use to simple, repetitive videos. We draw on
recent techniques from self-supervised learning to learn this distance metric,
allowing us to compare frames in a manner that scales to more challenging
dynamics, and to condition on other data, such as audio. We learn
representations for video frames and frame-to-frame transition probabilities by
fitting a video-specific model trained using contrastive learning. To
synthesize a texture, we randomly sample frames with high transition
probabilities to generate diverse temporally smooth videos with novel sequences
and transitions. The model naturally extends to an audio-conditioned setting
without requiring any finetuning. Our model outperforms baselines on human
perceptual scores, can handle a diverse range of input videos, and can combine
semantic and audio-visual cues in order to synthesize videos that synchronize
well with an audio signal.
- Abstract(参考訳): コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
しかし、この古典的な作品は、手作りの距離メトリクスの使用によって制限され、シンプルで反復的なビデオに制限された。
我々は、この距離メトリックを学習するために、自己教師型学習の最近の技術に基づき、より困難なダイナミックスにスケールする方法でフレームを比較することができ、オーディオなどの他のデータに条件付けることができます。
コントラスト学習を用いて訓練されたビデオ固有モデルを用いて,ビデオフレームの表現とフレーム間遷移確率を学習する。
テクスチャを合成するために,高遷移確率のフレームをランダムにサンプリングし,新しいシーケンスとトランジションの多様な時間的滑らかなビデオを生成する。
モデルは、微調整を必要とせずに、自然にオーディオ条件設定に拡張される。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
関連論文リスト
- SmoothVideo: Smooth Video Synthesis with Noise Constraints on Diffusion
Models for One-shot Video Tuning [18.979299814757997]
ワンショットビデオチューニング手法は、不整合と不整合によってマージされたビデオを生成する。
本稿では,ビデオフレーム間の簡易かつ効果的なノイズ制約を提案する。
既存のワンショットビデオチューニング手法にロスを適用することで、生成されたビデオの全体的な一貫性と滑らかさを大幅に改善する。
論文 参考訳(メタデータ) (2023-11-29T11:14:43Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。