論文の概要: SAVE: Spectral-Shift-Aware Adaptation of Image Diffusion Models for
Text-guided Video Editing
- arxiv url: http://arxiv.org/abs/2305.18670v1
- Date: Tue, 30 May 2023 01:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 18:58:04.394794
- Title: SAVE: Spectral-Shift-Aware Adaptation of Image Diffusion Models for
Text-guided Video Editing
- Title(参考訳): SAVE:テキスト誘導ビデオ編集のための画像拡散モデルのスペクトルシフト対応
- Authors: Nazmul Karim, Umar Khalid, Mohsen Joneidi, Chen Chen, Nazanin
Rahnavard
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルはテキスト・プロンプトに条件付けされた高品質な画像の合成において顕著な成功を収めた。
最近の手法では、非常に多くのテキストビデオペア上でT2Vモデルをトレーニングするか、あるいはテキストビデオペア上でT2Iモデルを独立して適用することで、成功を再現しようと試みている。
パラメータ自体ではなくパラメータ空間のスペクトルシフトを微調整する新しいスペクトルシフト対応フレームワークであるSAVEを提案する。
- 参考スコア(独自算出の注目度): 13.720073851163734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) diffusion models have achieved remarkable success in
synthesizing high-quality images conditioned on text prompts. Recent methods
have tried to replicate the success by either training text-to-video (T2V)
models on a very large number of text-video pairs or adapting T2I models on
text-video pairs independently. Although the latter is computationally less
expensive, it still takes a significant amount of time for per-video adaption.
To address this issue, we propose SAVE, a novel spectral-shift-aware adaptation
framework, in which we fine-tune the spectral shift of the parameter space
instead of the parameters themselves. Specifically, we take the spectral
decomposition of the pre-trained T2I weights and only control the change in the
corresponding singular values, i.e. spectral shift, while freezing the
corresponding singular vectors. To avoid drastic drift from the original T2I
weights, we introduce a spectral shift regularizer that confines the spectral
shift to be more restricted for large singular values and more relaxed for
small singular values. Since we are only dealing with spectral shifts, the
proposed method reduces the adaptation time significantly (approx. 10 times)
and has fewer resource constrains for training. Such attributes posit SAVE to
be more suitable for real-world applications, e.g. editing undesirable content
during video streaming. We validate the effectiveness of SAVE with an extensive
experimental evaluation under different settings, e.g. style transfer, object
replacement, privacy preservation, etc.
- Abstract(参考訳): テキスト・ツー・イメージ(t2i)拡散モデルは,テキストプロンプトに基づく高品質画像の合成において顕著な成功を収めている。
最近の手法では、非常に多くのテキストビデオペア上でT2Vモデルをトレーニングするか、あるいはテキストビデオペア上でT2Iモデルを独立して適用することで、成功を再現しようと試みている。
後者は計算コストは低いが、ビデオごとの適応には依然としてかなりの時間がかかる。
この問題に対処するために,パラメータ自体ではなくパラメータ空間のスペクトルシフトを微調整する,新しいスペクトルシフト・アウェア適応フレームワークであるsaveを提案する。
具体的には、予め訓練されたT2I重みのスペクトル分解を行い、対応する特異値の変化、すなわちスペクトルシフトを制御し、対応する特異ベクトルを凍結する。
元のT2I重みからの急激なドリフトを避けるために、スペクトルシフトを大きな特異値に制限し、小さな特異値に緩和するスペクトルシフト正規化器を導入する。
スペクトルシフトのみを扱うため,提案手法は適応時間を大幅に短縮する(約10倍)とともに,トレーニングのリソース制約も少ない。
このような属性は、ビデオストリーミング中に望ましくないコンテンツを編集するなど、現実のアプリケーションに適している。
我々は,SAVEの有効性を,スタイル転送,オブジェクト置換,プライバシ保護など,異なる環境下での広範囲な実験的評価により検証する。
関連論文リスト
- VideoDirector: Precise Video Editing via Text-to-Video Models [45.53826541639349]
現在のビデオ編集法は、時間的コヒーレンス生成能力を欠くテキスト・ツー・ビデオ(T2V)モデルに依存している。
本稿では、より正確なピボットインバージョンを実現するために、時空間デカップリングガイダンス(STDG)と複数フレームのヌルテキスト最適化戦略を提案する。
実験結果から,本手法はT2Vモデルの強力な時間生成能力を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-11-26T16:56:53Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing
with Diffusion Models [19.792535444735957]
RAVEは、事前訓練されたテキスト-画像拡散モデルを活用するゼロショットビデオ編集法である。
オリジナルモーションとセマンティックな構造を保ちながら高品質なビデオを生成する。
RAVEは、局所的な属性修正から形状変換まで、幅広い編集が可能である。
論文 参考訳(メタデータ) (2023-12-07T18:43:45Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。