論文の概要: T2VUnlearning: A Concept Erasing Method for Text-to-Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.17550v1
- Date: Fri, 23 May 2025 06:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.882178
- Title: T2VUnlearning: A Concept Erasing Method for Text-to-Video Diffusion Models
- Title(参考訳): T2VUnlearning:テキスト・ビデオ拡散モデルの概念消去手法
- Authors: Xiaoyu Ye, Songjie Cheng, Yongtao Wang, Yajiao Xiong, Yishen Li,
- Abstract要約: 本稿では,テキスト・ツー・ビデオ(T2V)モデルに対する頑健で高精度な未学習手法を提案する。
正確なアンラーニングを実現するために,モデルの非ターゲット概念生成能力を維持するために,ローカライゼーションと保存正規化を組み込んだ。
本手法は,既存の手法よりも優れたモデル生成能力を保ちながら,特定の概念を効果的に消去する。
- 参考スコア(独自算出の注目度): 5.876360170606312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-video (T2V) diffusion models have significantly enhanced the quality of generated videos. However, their ability to produce explicit or harmful content raises concerns about misuse and potential rights violations. Inspired by the success of unlearning techniques in erasing undesirable concepts from text-to-image (T2I) models, we extend unlearning to T2V models and propose a robust and precise unlearning method. Specifically, we adopt negatively-guided velocity prediction fine-tuning and enhance it with prompt augmentation to ensure robustness against LLM-refined prompts. To achieve precise unlearning, we incorporate a localization and a preservation regularization to preserve the model's ability to generate non-target concepts. Extensive experiments demonstrate that our method effectively erases a specific concept while preserving the model's generation capability for all other concepts, outperforming existing methods. We provide the unlearned models in \href{https://github.com/VDIGPKU/T2VUnlearning.git}{https://github.com/VDIGPKU/T2VUnlearning.git}.
- Abstract(参考訳): テキスト・ツー・ビデオ拡散モデル(T2V)の最近の進歩は、生成されたビデオの品質を大幅に向上させた。
しかし、明示的または有害なコンテンツを生成する能力は、誤用や潜在的な権利侵害に対する懸念を引き起こす。
テキスト・ツー・イメージ(T2I)モデルから望ましくない概念を消去する未学習技術の成功に触発されて、未学習をT2Vモデルに拡張し、堅牢で正確な未学習法を提案する。
具体的には,LLM修正プロンプトに対するロバスト性を確保するために,負の誘導による速度予測の微調整を採用し,プロンプト拡張により強化する。
正確なアンラーニングを実現するために,モデルの非ターゲット概念生成能力を維持するために,ローカライゼーションと保存正規化を組み込んだ。
実験により,提案手法は,既存の手法よりも優れたモデル生成能力を保ちながら,特定の概念を効果的に消去することを示した。
We provide the unlearned model in \href{https://github.com/VDIGPKU/T2VUnlearning.git}{https://github.com/VDIGPKU/T2VUnlearning.git}。
関連論文リスト
- Sculpting Memory: Multi-Concept Forgetting in Diffusion Models via Dynamic Mask and Concept-Aware Optimization [20.783312940122297]
テキスト・ツー・イメージ(T2I)拡散モデルは,テキスト・プロンプトから高品質な画像を生成することに成功している。
しかし、膨大な量の知識を蓄積する能力は、選択的に忘れることが必要なシナリオに懸念を生じさせる。
マルチコンセプトを忘れるように設計された新しいアンラーニングフレームワークであるコンセプト・アウェア・ロスを併用したtextbfDynamic Maskを提案する。
論文 参考訳(メタデータ) (2025-04-12T01:38:58Z) - SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders [4.013156524547073]
拡散モデルは、必然的に有害または望ましくないコンテンツを生成できる。
最近の機械学習アプローチは潜在的な解決策を提供するが、透明性を欠いていることが多い。
本稿では,スパースオートエンコーダが学習した特徴を利用して不要な概念を除去する手法であるSAeUronを紹介する。
論文 参考訳(メタデータ) (2025-01-29T23:29:47Z) - ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement [49.513401043490305]
本研究は,テキスト・ビデオ・モデルの連続的な事前学習について考察する。
私たちはこのタスクを、モデルのキャパシティの向上とセマンティック理解の改善という、2つの重要な側面に分割します。
意味理解のために,大規模言語モデルを高度なテキストエンコーダとして活用する手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T18:58:07Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - HARIVO: Harnessing Text-to-Image Models for Video Generation [45.63338167699105]
本稿では,事前学習されたテキスト・ツー・イメージ(T2I)モデルから拡散に基づく映像モデルを作成する手法を提案する。
鍵となる革新は、時間的滑らか性のための新しい損失関数と緩和勾配サンプリング技術である。
凍結したStableDiffusionモデルに基づいて構築され、トレーニングプロセスを単純化し、ControlNetやDreamBoothといった市販モデルとのシームレスな統合を可能にします。
論文 参考訳(メタデータ) (2024-10-10T09:47:39Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。