論文の概要: Unlearning Concepts from Text-to-Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.14209v1
- Date: Fri, 19 Jul 2024 11:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 17:54:18.904920
- Title: Unlearning Concepts from Text-to-Video Diffusion Models
- Title(参考訳): テキスト・ビデオ拡散モデルからの未学習概念
- Authors: Shiqi Liu, Yihua Tan,
- Abstract要約: 本稿では,テキスト間拡散モデルのテキストエンコーダの非学習能力をテキスト間拡散モデルに転送することで,新しい概念アンラーニング手法を提案する。
本手法は,著作権のある漫画キャラクタ,アーティストのスタイル,オブジェクト,人々の顔の特徴を解放することができる。
- 参考スコア(独自算出の注目度): 4.640452023364898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of computer vision and natural language processing, text-to-video generation, enabled by text-to-video diffusion models, has become more prevalent. These models are trained using a large amount of data from the internet. However, the training data often contain copyrighted content, including cartoon character icons and artist styles, private portraits, and unsafe videos. Since filtering the data and retraining the model is challenging, methods for unlearning specific concepts from text-to-video diffusion models have been investigated. However, due to the high computational complexity and relative large optimization scale, there is little work on unlearning methods for text-to-video diffusion models. We propose a novel concept-unlearning method by transferring the unlearning capability of the text encoder of text-to-image diffusion models to text-to-video diffusion models. Specifically, the method optimizes the text encoder using few-shot unlearning, where several generated images are used. We then use the optimized text encoder in text-to-video diffusion models to generate videos. Our method costs low computation resources and has small optimization scale. We discuss the generated videos after unlearning a concept. The experiments demonstrates that our method can unlearn copyrighted cartoon characters, artist styles, objects and people's facial characteristics. Our method can unlearn a concept within about 100 seconds on an RTX 3070. Since there was no concept unlearning method for text-to-video diffusion models before, we make concept unlearning feasible and more accessible in the text-to-video domain.
- Abstract(参考訳): コンピュータビジョンと自然言語処理の進歩により,テキスト・ビデオ拡散モデルによって実現されたテキスト・ビデオ生成が普及している。
これらのモデルは、インターネットから大量のデータを使って訓練されている。
しかし、トレーニングデータには、漫画のキャラクターアイコンやアーティストスタイル、プライベートポートレート、安全でないビデオなど、著作権のあるコンテンツが含まれていることが多い。
データのフィルタリングとモデルの再訓練が難しいため,テキスト・ビデオ拡散モデルから特定の概念を学習する手法が研究されている。
しかし,高い計算複雑性と比較的大きな最適化スケールのため,テキスト・ビデオ拡散モデルの未学習手法についてはほとんど研究されていない。
本稿では,テキスト間拡散モデルのテキストエンコーダの非学習能力をテキスト間拡散モデルに転送することで,新しい概念アンラーニング手法を提案する。
具体的には、テキストエンコーダを数発のアンラーニングで最適化し、複数の生成された画像を使用する。
次に、テキスト間拡散モデルに最適化されたテキストエンコーダを用いてビデオを生成する。
提案手法は計算資源の削減と最適化の小型化を目的としている。
概念を学習した後に生成されたビデオについて論じる。
提案手法は,著作権のある漫画キャラクタ,アーティストのスタイル,対象物,人の顔の特徴を解放できることを示す。
RTX 3070で約100秒以内に概念を解くことができる。
これまで,テキスト・ビデオ拡散モデルに未学習の概念は存在しなかったので,テキスト・ビデオ領域において,非学習が実現可能で,よりアクセスしやすいものにしている。
関連論文リスト
- Grid Diffusion Models for Text-to-Video Generation [2.531998650341267]
既存のビデオ生成手法の多くは、時間次元を考慮した3D U-Netアーキテクチャまたは自己回帰生成を使用する。
アーキテクチャにおける時間次元を伴わないテキスト・ビデオ生成と大規模なテキスト・ビデオ・ペア・データセットのための,単純だが効果的な新しいグリッド拡散法を提案する。
提案手法は,定量評価と定性評価の両方において既存手法より優れている。
論文 参考訳(メタデータ) (2024-03-30T03:50:43Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。