Fugu-MT 論文翻訳(概要): Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning

論文の概要: Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning

arxiv url: http://arxiv.org/abs/2407.16307v1
Date: Tue, 23 Jul 2024 09:00:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 17:56:16.925278
Title: Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning
Title（参考訳）: マルチモーダル非学習例:マルチモーダルコントラスト学習に対するデータ保護
Authors: Xinwei Liu, Xiaojun Jia, Yuan Xun, Siyuan Liang, Xiaochun Cao,
Abstract要約: マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。マルチステップ誤り最小化(MEM)を提案する。
参考スコア（独自算出の注目度）: 53.766434746801366
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal contrastive learning (MCL) has shown remarkable advances in zero-shot classification by learning from millions of image-caption pairs crawled from the Internet. However, this reliance poses privacy risks, as hackers may unauthorizedly exploit image-text data for model training, potentially including personal and privacy-sensitive information. Recent works propose generating unlearnable examples by adding imperceptible perturbations to training images to build shortcuts for protection. However, they are designed for unimodal classification, which remains largely unexplored in MCL. We first explore this context by evaluating the performance of existing methods on image-caption pairs, and they do not generalize effectively to multimodal data and exhibit limited impact to build shortcuts due to the lack of labels and the dispersion of pairs in MCL. In this paper, we propose Multi-step Error Minimization (MEM), a novel optimization process for generating multimodal unlearnable examples. It extends the Error-Minimization (EM) framework to optimize both image noise and an additional text trigger, thereby enlarging the optimized space and effectively misleading the model to learn the shortcut between the noise features and the text trigger. Specifically, we adopt projected gradient descent to solve the noise minimization problem and use HotFlip to approximate the gradient and replace words to find the optimal text trigger. Extensive experiments demonstrate the effectiveness of MEM, with post-protection retrieval results nearly half of random guessing, and its high transferability across different models. Our code is available on the https://github.com/thinwayliu/Multimodal-Unlearnable-Examples
Abstract（参考訳）: マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。しかし、この依存はプライバシーのリスクを引き起こす。ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。しかし、それらは一様分類のために設計されており、MCLではほとんど探索されていない。まず,画像キャプチャペア上での既存手法の性能を評価し,マルチモーダルデータに効果的に一般化せず,ラベルの欠如やMCL内のペアの分散によるショートカット構築に限定的な影響を示す。本稿では,多段階誤り最小化(MEM)を提案する。エラー最小化(EM)フレームワークを拡張して、画像ノイズと追加のテキストトリガの両方を最適化し、最適化されたスペースを拡大し、ノイズ特徴とテキストトリガの間のショートカットを効果的に学習するためのモデルを誤解させる。具体的には、雑音最小化問題の解法として、予測勾配降下法を採用し、HotFlipを用いて勾配を近似し、単語を置換して最適なテキストトリガを求める。広範囲な実験により、保護後検索の結果はランダムな推測の半分近くであり、異なるモデル間で高い転送性を持つMEMの有効性が実証された。私たちのコードはhttps://github.com/thinwayliu/Multimodal-Unlearnable-Examplesで利用可能です。

関連論文リスト

MultiModal Fine-tuning with Synthetic Captions [9.572235167281686]
MLLM(Multimodal Large Language Models)を用いた一様データセットをマルチモーダルモデルに変換する新しい手法を提案する。本手法では,クラスラベルとドメインコンテキストを組み込んで,分類タスクの高品質なキャプションを生成するために,慎重に設計したプロンプトを用いる。我々の研究は、マルチモーダル事前学習と微調整のギャップを効果的に橋渡しするデータセット拡張のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2026-01-29T09:03:45Z)
A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images [18.191222010916405]
セマンティック・パーフェクト・アライメント・サンプル・ペアによる全目的リモートセンシング機能を実現するPerAと呼ばれる新しい自己教師型手法を提案する。私たちのフレームワークは,教師と生徒の一貫性を確保することによって,高品質な機能を提供します。約500万のRS画像を含むラベル付き事前学習データセットを収集する。
論文参考訳（メタデータ） (2025-05-26T03:12:49Z)
Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
SCA: Highly Efficient Semantic-Consistent Unrestricted Adversarial Attack [29.744970741737376]
我々はセマンティック・コンスタント・アンリミスタント・アンリミテッド・アタック(SCA)と呼ばれる新しいフレームワークを提案する。 SCAは、編集しやすいノイズマップを抽出するために反転法を採用し、意味的なガイダンスを提供するためにMLLM(Multimodal Large Language Model)を使用している。我々のフレームワークは、最小限の識別可能な意味変化を示す敵例の効率的な生成を可能にする。
論文参考訳（メタデータ） (2024-10-03T06:25:53Z)
Semantic Deep Hiding for Robust Unlearnable Examples [33.68037533119807]
深層学習モデルを誤解させ、データを不正な探索から防ぐために、未学習例が提案されている。本稿では,高次特徴に富んだセマンティック画像を適応的に隠蔽するDeep Hiding方式を提案する。提案手法は学習不可能な事例に対して顕著なロバスト性を示し,その有効性を示す。
論文参考訳（メタデータ） (2024-06-25T08:05:42Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
Unlearnable Examples Give a False Sense of Data Privacy: Understanding and Relearning [31.2971146235291]
学習不可能な例は、公開データに知覚不能な摂動を加えることで、学習不可能な例を生成する。本稿では、学習不可能な例を打破するために特別に設計された自己適応型トレーニングフレームワークであるプログレッシブ・ステージド・トレーニングを提案する。本手法は,文学におけるすべての最先端手法の難解性を回避している。
論文参考訳（メタデータ） (2023-06-03T09:36:16Z)
CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。 CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文参考訳（メタデータ） (2023-03-06T17:48:32Z)
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。 CMCは自然文をテキストビューからマルチモーダルビューに変換する。クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文参考訳（メタデータ） (2022-06-17T17:56:47Z)
Mitigating Modality Collapse in Multimodal VAEs via Impartial Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文参考訳（メタデータ） (2022-06-09T13:29:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。