論文の概要: SmoothVideo: Smooth Video Synthesis with Noise Constraints on Diffusion
Models for One-shot Video Tuning
- arxiv url: http://arxiv.org/abs/2311.17536v2
- Date: Tue, 6 Feb 2024 12:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:38:02.642660
- Title: SmoothVideo: Smooth Video Synthesis with Noise Constraints on Diffusion
Models for One-shot Video Tuning
- Title(参考訳): SmoothVideo:ワンショットビデオチューニングのための拡散モデルにおけるノイズ制約付き滑らかなビデオ合成
- Authors: Liang Peng, Haoran Cheng, Zheng Yang, Ruisi Zhao, Linxuan Xia,
Chaotian Song, Qinglin Lu, Boxi Wu, Wei Liu
- Abstract要約: ワンショットビデオチューニング手法は、不整合と不整合によってマージされたビデオを生成する。
本稿では,ビデオフレーム間の簡易かつ効果的なノイズ制約を提案する。
既存のワンショットビデオチューニング手法にロスを適用することで、生成されたビデオの全体的な一貫性と滑らかさを大幅に改善する。
- 参考スコア(独自算出の注目度): 18.979299814757997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent one-shot video tuning methods, which fine-tune the network on a
specific video based on pre-trained text-to-image models (e.g., Stable
Diffusion), are popular in the community because of the flexibility. However,
these methods often produce videos marred by incoherence and inconsistency. To
address these limitations, this paper introduces a simple yet effective noise
constraint across video frames. This constraint aims to regulate noise
predictions across their temporal neighbors, resulting in smooth latents. It
can be simply included as a loss term during the training phase. By applying
the loss to existing one-shot video tuning methods, we significantly improve
the overall consistency and smoothness of the generated videos. Furthermore, we
argue that current video evaluation metrics inadequately capture smoothness. To
address this, we introduce a novel metric that considers detailed features and
their temporal dynamics. Experimental results validate the effectiveness of our
approach in producing smoother videos on various one-shot video tuning
baselines. The source codes and video demos are available at
\href{https://github.com/SPengLiang/SmoothVideo}{https://github.com/SPengLiang/SmoothVideo}.
- Abstract(参考訳): 最近のワンショットビデオチューニング手法は、事前学習されたテキストから画像へのモデル(例えば、安定した拡散)に基づいて、特定のビデオ上でネットワークを微調整する。
しかし、これらの手法は不一貫性と不整合によってマードされたビデオをしばしば生成する。
これらの制約に対処するために,本研究では,ビデオフレーム間の簡易かつ効果的なノイズ制約を提案する。
この制約は、時間的近傍にまたがるノイズ予測を規制することを目的としており、結果としてスムーズな潜在性が生まれる。
単にトレーニング段階での損失項として含めることもできる。
既存のワンショットビデオチューニング手法にロスを適用することで、生成されたビデオの全体的な一貫性と滑らかさを大幅に改善する。
さらに,現在の映像評価指標では滑らかさが不十分である。
そこで本稿では,詳細な特徴とその時間的ダイナミクスを考慮した新しい指標を提案する。
種々のワンショットビデオチューニングベースライン上でのスムーズなビデオ生成におけるアプローチの有効性を実験的に検証した。
ソースコードとビデオデモは \href{https://github.com/SPengLiang/SmoothVideo}{https://github.com/SPengLiang/SmoothVideo} で公開されている。
関連論文リスト
- Fine-gained Zero-shot Video Sampling [21.42513407755273]
我々は,$mathcalZS2$と表記されるZero-Shotビデオサンプリングアルゴリズムを提案する。
$mathcalZS2$は、トレーニングや最適化なしに高品質のビデオクリップを直接サンプリングすることができる。
ゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-31T09:36:58Z) - CoNo: Consistency Noise Injection for Tuning-free Long Video Diffusion [15.013908857230966]
ルークバック機構は、異なるビデオクリップ間の微粒なシーン遷移を促進する。
長期の整合性正規化は、拡張ビデオクリップの予測ノイズと元のノイズとの画素幅距離を明示的に最小化することに焦点を当てる。
単文および複数文のプロンプト条件下で長ビデオ生成を行うことによる戦略の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-07T16:56:42Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - DiffSynth: Latent In-Iteration Deflickering for Realistic Video
Synthesis [15.857449277106827]
DiffSynthは、画像合成パイプラインをビデオ合成パイプラインに変換する新しいアプローチである。
潜伏中のデクリッカリングフレームワークとビデオデクリッカリングアルゴリズムで構成されている。
Diff Synthの顕著な利点の1つは、様々なビデオ合成タスクに適用可能であることである。
論文 参考訳(メタデータ) (2023-08-07T10:41:52Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。