論文の概要: Video Unlearning via Low-Rank Refusal Vector
- arxiv url: http://arxiv.org/abs/2506.07891v1
- Date: Mon, 09 Jun 2025 16:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.036453
- Title: Video Unlearning via Low-Rank Refusal Vector
- Title(参考訳): 低ランクリフレクションベクトルによるビデオアンラーニング
- Authors: Simone Facchiano, Stefano Saravalle, Matteo Migliarini, Edoardo De Matteis, Alessio Sampieri, Andrea Pilzer, Emanuele Rodolà, Indro Spinelli, Luca Franco, Fabio Galasso,
- Abstract要約: 映像生成モデルは直感的な指示によって視覚コンテンツの作成を民主化する。
しかし、Webスケールのトレーニングデータに埋め込まれたバイアスや有害な概念も継承する。
ユーザーは望ましくないコンテンツや違法コンテンツを簡単に生成できるため、この継承は重大なリスクをもたらす。
この研究は、この重要な問題に対処するためにビデオ拡散モデル用に明示的に調整された最初のアンラーニング手法を導入する。
- 参考スコア(独自算出の注目度): 16.820840077695912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generative models democratize the creation of visual content through intuitive instruction following, but they also inherit the biases and harmful concepts embedded within their web-scale training data. This inheritance creates a significant risk, as users can readily generate undesirable and even illegal content. This work introduces the first unlearning technique tailored explicitly for video diffusion models to address this critical issue. Our method requires 5 multi-modal prompt pairs only. Each pair contains a "safe" and an "unsafe" example that differ only by the target concept. Averaging their per-layer latent differences produces a "refusal vector", which, once subtracted from the model parameters, neutralizes the unsafe concept. We introduce a novel low-rank factorization approach on the covariance difference of embeddings that yields robust refusal vectors. This isolates the target concept while minimizing collateral unlearning of other semantics, thus preserving the visual quality of the generated video. Our method preserves the model's generation quality while operating without retraining or access to the original training data. By embedding the refusal direction directly into the model's weights, the suppression mechanism becomes inherently more robust against adversarial bypass attempts compared to surface-level input-output filters. In a thorough qualitative and quantitative evaluation, we show that we can neutralize a variety of harmful contents, including explicit nudity, graphic violence, copyrights, and trademarks. Project page: https://www.pinlab.org/video-unlearning.
- Abstract(参考訳): ビデオ生成モデルは直感的な指導によって視覚コンテンツの作成を民主化するが、Webスケールのトレーニングデータに埋め込まれたバイアスや有害な概念を継承する。
ユーザーは望ましくないコンテンツや違法コンテンツを簡単に生成できるため、この継承は重大なリスクをもたらす。
この研究は、この重要な問題に対処するためにビデオ拡散モデル用に明示的に調整された最初のアンラーニング手法を導入する。
提案手法は5つのマルチモーダルプロンプトペアのみを必要とする。
各ペアには、ターゲット概念によってのみ異なる"セーフ"と"アンセーフ"の例が含まれている。
層ごとの遅延差を平均化すると「拒絶ベクトル」が生成され、モデルパラメータから一旦減算すると、安全でない概念が中和される。
本稿では,頑健な拒否ベクトルを生成する埋め込みの共分散差に対する,新しい低ランク分解手法を提案する。
これにより、他のセマンティクスの傍観的アンラーニングを最小限に抑えつつ、ターゲット概念を分離し、生成したビデオの視覚的品質を維持することができる。
本手法は,トレーニングデータの再トレーニングやアクセスを行なわずに,モデルの生成品質を維持できる。
モデル重みに直接拒絶方向を埋め込むことにより、抑制機構は表面レベルの入力出力フィルタに比べて本質的に逆バイパスの試みに対して堅牢になる。
徹底的な質的定量的評価では、明示的なヌード、グラフィック暴力、著作権、商標など、さまざまな有害なコンテンツを中和できることを示す。
プロジェクトページ: https://www.pinlab.org/video-unlearning。
関連論文リスト
- Embedding Hidden Adversarial Capabilities in Pre-Trained Diffusion Models [1.534667887016089]
我々は,極細調整による拡散モデルに直接,隠れた敵の能力を組み込む新たな攻撃パラダイムを導入する。
得られた改ざんされたモデルは、原画像と区別できない高品質な画像を生成する。
当社のアプローチの有効性とステルス性を実証し、新たなセキュリティ上の懸念を生じさせる隠蔽攻撃ベクトルを明らかにする。
論文 参考訳(メタデータ) (2025-04-05T12:51:36Z) - Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations [10.86252546314626]
テキスト・ツー・イメージ生成モデルは、敵対的な攻撃をしがちであり、不安全で非倫理的なコンテンツを不注意に生成する。
我々は,k-スパースオートエンコーダ(k-SAE)を活用して,効率的な,解釈可能な概念操作を実現する新しいフレームワークを提案する。
提案手法は, 安全でない概念除去において$mathbf20.01%$の改善を実現し, スタイル操作に有効であり, 現在の最先端技術よりも$mathbfsim5$x高速である。
論文 参考訳(メタデータ) (2025-01-31T11:52:47Z) - SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders [4.013156524547073]
拡散モデルは、必然的に有害または望ましくないコンテンツを生成できる。
最近の機械学習アプローチは潜在的な解決策を提供するが、透明性を欠いていることが多い。
本稿では,スパースオートエンコーダが学習した特徴を利用して不要な概念を除去する手法であるSAeUronを紹介する。
論文 参考訳(メタデータ) (2025-01-29T23:29:47Z) - Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.43422118066493]
マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。
従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。
本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文 参考訳(メタデータ) (2024-09-17T14:12:50Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z) - TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting [107.39743751292028]
TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。
動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。
本研究では,最先端手法に対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-31T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。