論文の概要: T2UE: Generating Unlearnable Examples from Text Descriptions
- arxiv url: http://arxiv.org/abs/2508.03091v1
- Date: Tue, 05 Aug 2025 05:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.786783
- Title: T2UE: Generating Unlearnable Examples from Text Descriptions
- Title(参考訳): T2UE: テキスト記述から未知の例を生成する
- Authors: Xingjun Ma, Hanxun Huang, Tianwei Song, Ye Sun, Yifeng Gao, Yu-Gang Jiang,
- Abstract要約: Unlearnable Examples (UEs) は、無許可のモデルトレーニングに対する有望な対策として登場した。
textbfText-to-Unlearnable Example (T2UE)は,テキスト記述のみを用いてUEを生成する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 60.111026156038264
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-scale pre-training frameworks like CLIP have revolutionized multimodal learning, but their reliance on web-scraped datasets, frequently containing private user data, raises serious concerns about misuse. Unlearnable Examples (UEs) have emerged as a promising countermeasure against unauthorized model training, employing carefully crafted unlearnable noise to disrupt the learning of meaningful representations from protected data. Current approaches typically generate UEs by jointly optimizing unlearnable noise for both images and their associated text descriptions (or labels). However, this optimization process is often computationally prohibitive for on-device execution, forcing reliance on external third-party services. This creates a fundamental privacy paradox: users must initially expose their data to these very services to achieve protection, thereby compromising privacy in the process. Such a contradiction has severely hindered the development of practical, scalable data protection solutions. To resolve this paradox, we introduce \textbf{Text-to-Unlearnable Example (T2UE)}, a novel framework that enables users to generate UEs using only text descriptions. T2UE circumvents the need for original image data by employing a text-to-image (T2I) model to map text descriptions into the image (noise) space, combined with an error-minimization framework to produce effective unlearnable noise. Extensive experiments show that T2UE-protected data substantially degrades performance in downstream tasks (e.g., cross-modal retrieval) for state-of-the-art models. Notably, the protective effect generalizes across diverse architectures and even to supervised learning settings. Our work demonstrates the feasibility of "zero-contact data protection", where personal data can be safeguarded based solely on their textual descriptions, eliminating the need for direct data exposure.
- Abstract(参考訳): CLIPのような大規模事前トレーニングフレームワークは、マルチモーダル学習に革命をもたらしたが、プライベートユーザデータを頻繁に含むWebスクラッドデータセットに依存しているため、誤用に関する深刻な懸念が持ち上がっている。
Unlearnable Examples (UEs) は、保護されたデータからの有意義な表現の学習を妨害するために、慎重に構築された非学習可能なノイズを利用する、無許可のモデルトレーニングに対する有望な対策として登場した。
現在のアプローチでは、画像とそれに関連するテキスト記述(またはラベル)の両方に対して、学習不能なノイズを共同で最適化することでUEを生成するのが一般的である。
しかし、この最適化プロセスはデバイス上での実行では計算が禁止されることが多く、外部のサードパーティサービスへの依存を強いる。
ユーザはまず、保護を達成するために、これらのサービスにデータを公開しなければならないため、プロセス内のプライバシを損なうことになる。
このような矛盾は、実用的でスケーラブルなデータ保護ソリューションの開発を著しく妨げている。
このパラドックスを解決するために,テキスト記述のみを用いてUEを生成する新しいフレームワークである \textbf{Text-to-Unlearnable Example (T2UE) を導入する。
T2UEは、テキスト記述を画像(ノイズ)空間にマッピングするためにテキスト・ツー・イメージ(T2I)モデルを用いることで、元の画像データの必要性を回避する。
大規模な実験により、T2UEで保護されたデータは、最先端モデルの下流タスク(例えば、クロスモーダル検索)のパフォーマンスを著しく低下させることが示された。
特に、保護効果は多様なアーキテクチャにまたがって一般化し、教師付き学習設定にも応用される。
本研究は「ゼロコンタクトデータ保護」の実現可能性を示し,テキスト記述のみに基づいて個人データを保護し,直接データ公開の必要性を排除した。
関連論文リスト
- Temporal Unlearnable Examples: Preventing Personal Video Data from Unauthorized Exploitation by Object Tracking [90.81846867441993]
本稿では,ディープトラッカーによる個人ビデオデータの不正利用を防止するための最初の研究について述べる。
時間的非学習可能な例(TUE)を生成するための新しい生成フレームワークを提案する。
提案手法は,VOTモデル,データセット,時間的マッチングタスク間の転送性が強いビデオデータプライバシ保護において,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-10T07:11:33Z) - Towards Operationalizing Right to Data Protection [8.61230665736263]
RegTextは、認識不能な相関関係を自然言語データセットに注入するフレームワークで、コンテンツに影響を与えることなく、効果的に学習不能にすることができる。
小型・大規模LMの厳密な実証分析によりRegTextの有用性を実証する。
RegTextは、生成したデータからGPT-4oやLlamaといった新しいモデルを学ぶことができます。
論文 参考訳(メタデータ) (2024-11-13T10:43:31Z) - Detecting Dataset Abuse in Fine-Tuning Stable Diffusion Models for Text-to-Image Synthesis [3.8809673918404246]
認証されていない使用とトレースデータのリークを検出するために設計されたデータセットの透かしフレームワーク。
我々は、不正使用やトレースデータ漏洩を検出するために設計されたデータセット透かしフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-27T16:34:48Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - CoGenesis: A Framework Collaborating Large and Small Language Models for Secure Context-Aware Instruction Following [27.22804560751958]
本稿では,大規模(クラウドインフラストラクチャにホストされている)と小型(ローカルデバイスにデプロイされている)を統合し,論理的にプライバシー問題に対処する協調生成フレームワークを提案する。
1) ユーザコンテキストが提供されると大規模モデルの性能は良好に向上するが,そのようなコンテキストの欠如に苦慮する。
我々のフレームワークは、混合スケールモデルを利用して、競争性能を示し、プライバシー問題に対する実現可能な解決策を提供します。
論文 参考訳(メタデータ) (2024-03-05T17:15:28Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - ConfounderGAN: Protecting Image Data Privacy with Causal Confounder [85.6757153033139]
本稿では,GAN(Generative Adversarial Network)のConfounderGANを提案する。
実験は、3つの自然なオブジェクトデータセットと3つの医療データセットからなる6つの画像分類データセットで実施される。
論文 参考訳(メタデータ) (2022-12-04T08:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。