論文の概要: To See is Not to Learn: Protecting Multimodal Data from Unauthorized Fine-Tuning of Large Vision-Language Model
- arxiv url: http://arxiv.org/abs/2605.14291v1
- Date: Thu, 14 May 2026 02:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.589543
- Title: To See is Not to Learn: Protecting Multimodal Data from Unauthorized Fine-Tuning of Large Vision-Language Model
- Title(参考訳): 学ぶべきでないこと:大視領域モデルの不正な微調整からマルチモーダルデータを保護する
- Authors: Chengshuai Zhao, Zhen Tan, Dawei Li, Zhiyuan Yu, Huan Liu,
- Abstract要約: 我々はMMGuardを提案し、データ所有者が不正な微調整に対して積極的にマルチモーダルデータを保護できるようにする。
MMGuardはLVLMの学習力学を積極的に活用する人間の知覚できない摂動を注入することで、学習不可能な例を生成する。
その結果、ホワイトボックス、グレーボックス、ブラックボックスの脅威モデルの下で、効果的で、ステルス的で、堅牢な保護効果が示された。
- 参考スコア(独自算出の注目度): 21.217016062987234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Vision-Language Models (LVLMs) is increasingly accompanied by unauthorized scraping and training on multimodal web data, posing severe copyright and privacy risks to data owners. Existing countermeasures, such as machine unlearning and watermarks, are inherent post-hoc approaches that act only after intellectual property infringement has already occurred. In this work, we propose MMGuard to empower data owners to proactively protect their multimodal data against unauthorized LVLM fine-tuning. MMGuard generates unlearnable examples by injecting human-imperceptible perturbations that actively exploit the learning dynamics of LVLMs. By minimizing the training loss, the perturbation creates an optimization shortcut, causing the model to overfit to the noise and thereby degrading downstream performance when the perturbation is absent during inference. To further strengthen this defense, MMGuard introduces a cross-modal binding disruption, strategically shifting LVLM attention to enforce a spurious correlation between the noise and the training target with theoretical guarantees. Enhanced by an ensemble learning strategy for cross-model transferability, MMGuard is evaluated against nine open-source LVLMs across six datasets. Our comprehensive results demonstrate effective, stealthy, and robust protection under white-box, gray-box, and black-box threat models, establishing a mechanistic advantage in proactively defending against aggressive fine-tuning exploitation.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の急速な進歩は、無許可のスクレーピングとマルチモーダルなWebデータのトレーニングを伴い、データ所有者に深刻な著作権とプライバシのリスクをもたらしている。
機械学習や透かしなどの既存の対策は、知的財産権侵害が既に発生した後にのみ作用する、本質的にポストホックなアプローチである。
本研究では,データ所有者に対して,不正なLVLM微調整に対して,マルチモーダルデータを積極的に保護するためのMMGuardを提案する。
MMGuardはLVLMの学習力学を積極的に活用する人間の知覚できない摂動を注入することで、学習不可能な例を生成する。
トレーニング損失を最小化することにより、摂動は最適化ショートカットを生成し、モデルがノイズに過度に適合し、推論中に摂動が欠如している場合に下流性能が低下する。
この防御をさらに強化するため、MMGuardは相互結合破壊を導入し、LVLMの注意を戦略的にシフトさせ、理論的な保証でノイズとトレーニングターゲットの急激な相関を強制する。
6つのデータセットにわたる9つのオープンソースLVLMに対してMMGuardの評価を行った。
包括的結果は,白箱,グレーボックス,ブラックボックスの脅威モデルの下で有効,盗み,堅牢な保護を実証し,攻撃的微調整による攻撃的攻撃に対して積極的に防御する上での機械的優位性を確立した。
関連論文リスト
- From Pretrain to Pain: Adversarial Vulnerability of Video Foundation Models Without Task Knowledge [57.379583179331426]
本稿では、ダウンストリームモデルやオープンソースのVFMから微調整されたMLLMを攻撃することによる、新規で実用的な敵の脅威シナリオについて検討する。
本稿では,VFMの時間的表現ダイナミクスを利用して効果的な摂動を発生させる,時間的対応型対向攻撃手法であるTransferable Video Attack (TVA)を提案する。
TVAは高価なサロゲートモデルのトレーニングやドメイン固有のデータへのアクセスを回避し、より実用的で効率的な攻撃戦略を提供する。
論文 参考訳(メタデータ) (2025-11-10T12:42:32Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Self-Destructive Language Model [13.808746955144771]
有害な微調整攻撃は、大規模言語モデル(LLM)のセキュリティに大きな脅威をもたらす
本報告では,LEMを自己破壊モデルに変換するアライメント・エンハンス・ディフェンスであるSEAMについて紹介する。
論文 参考訳(メタデータ) (2025-05-18T01:08:18Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - ExpShield: Safeguarding Web Text from Unauthorized Crawling and Language Modeling Exploitation [17.71790411163849]
そこで本研究では,非知覚的テキスト摂動によるサンプル固有の記憶を緩和する,能動的自己防衛機構であるExpShiledを提案する。
当社のアプローチでは、オリジナルの可読性を維持しながら外部とのコラボレーションは必要ありません。
プライバシーのバックドアがあっても、MIA(Community Inference Attack)のAUCは0.95から0.55に低下し、インスタンスエクスプロイトは0に近づいた。
論文 参考訳(メタデータ) (2024-12-30T17:52:02Z) - Robust LLM safeguarding via refusal feature adversarial training [15.76605079209956]
大規模言語モデル(LLM)は、有害な応答を誘発する敵攻撃に対して脆弱である。
本稿では,敵対的訓練を効率的に行う新しいアルゴリズムReFATを提案する。
実験結果から, ReFATは, 広範囲な敵攻撃に対する3つのLLMのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-30T08:41:39Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。