論文の概要: LetheViT: Selective Machine Unlearning for Vision Transformers via Attention-Guided Contrastive Learning
- arxiv url: http://arxiv.org/abs/2508.01569v1
- Date: Sun, 03 Aug 2025 03:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.944096
- Title: LetheViT: Selective Machine Unlearning for Vision Transformers via Attention-Guided Contrastive Learning
- Title(参考訳): LetheViT: 注意誘導コントラスト学習による視覚変換器のための選択型機械学習
- Authors: Yujia Tong, Tian Zhang, Jingling Yuan, Yuze Wang, Chuang Hu,
- Abstract要約: ViT(Vision Transformers)は、コンピュータビジョンタスクに革命をもたらした。
この研究は、ViTにおけるランダムなデータの忘れという特に困難なシナリオに対処する。
本稿では,ViTに適した非学習手法であるLetheViTを提案する。
- 参考スコア(独自算出の注目度): 8.104991333199264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have revolutionized computer vision tasks with their exceptional performance. However, the introduction of privacy regulations such as GDPR and CCPA has brought new challenges to them. These laws grant users the right to withdraw their data, necessitating not only the deletion of data but also the complete removal of its influence from trained models. Machine unlearning emerges as a critical solution, with exact unlearning being computationally prohibitive and approximate methods offering a more practical approach. This work addresses the particularly challenging scenario of random data forgetting in ViTs, where the model must forget specific samples while retaining others, even within the same class. We first reveal the core characteristics of ViTs through selective masking experiments: when high-attention areas are masked, the model retains its recognition capability but significantly weakens its memorization ability. Based on the above insights, we propose LetheViT, a contrastive unlearning method tailored for ViTs. LetheViT uses masked image inputs to generate positive logits and original image inputs to generate negative logits, guiding the model to forget specific details while retaining the general cl category outlines. Experimental results demonstrate that LetheViT achieves state-of-the-art performance, effectively balancing privacy compliance with model efficacy.
- Abstract(参考訳): ViT(Vision Transformers)は、コンピュータビジョンタスクに革命をもたらした。
しかし、GDPRやCCPAといったプライバシー規制の導入は、彼らに新たな課題をもたらしている。
これらの法律により、ユーザーはデータの削除だけでなく、訓練されたモデルからの影響を完全に取り除く必要がある。
機械の非学習は重要な解決策として現れ、正確な非学習は計算的に禁止され、より実践的なアプローチを提供する近似的な方法である。
この研究は、ViTsでランダムなデータを忘れるという特に困難なシナリオに対処する。
選択的マスキング実験により,ViTのコア特性を最初に明らかにする: 高アテンション領域がマスキングされると,その認識能力は維持されるが,記憶能力は著しく低下する。
以上の知見に基づいて,ViT に適した非学習手法である LetheViT を提案する。
LetheViTはマスクされた画像入力を使用して、正のロジットと原画像入力を生成して負のロジットを生成し、一般的なclカテゴリのアウトラインを保持しながら、特定の詳細を忘れるようにモデルに指示する。
実験により、LetheViTは最先端のパフォーマンスを実現し、プライバシコンプライアンスとモデルの有効性を効果的にバランスすることを示した。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.83572030360843]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
予備学習で学んだ特徴や表現は必須ではない。
論文 参考訳(メタデータ) (2024-11-14T18:59:40Z) - SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization [39.09638432514626]
ビジョントランスフォーマー(ViT)は、ハイパフォーマンスのため、コンピュータビジョンでの利用が増えているが、敵攻撃に対する脆弱性が懸念されている。
本研究は, 敵攻撃に対するViTsの強化に適したSpecFormerを導入し, 理論的基盤となる。
論文 参考訳(メタデータ) (2024-01-02T14:27:24Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Interpretability-Aware Vision Transformer [12.406960223371959]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文 参考訳(メタデータ) (2023-09-14T21:50:49Z) - Transfer Learning for Fine-grained Classification Using Semi-supervised
Learning and Visual Transformers [1.694405932826705]
画像分類のための強力なツールとして、ビジュアルトランスフォーマー(ViT)が登場した。
本研究では,セミ教師あり学習技術を用いて微調整されたViTモデルであるSemi-ViTを探索する。
以上の結果から,従来の畳み込みニューラルネットワーク(CNN)やViTよりも高い性能を示した。
論文 参考訳(メタデータ) (2023-05-17T07:51:35Z) - Supervised Masked Knowledge Distillation for Few-Shot Transformers [36.46755346410219]
そこで本稿では,少数のトランスフォーマーを対象としたSMKD(Supervised Masked Knowledge Distillation Model)を提案する。
従来の自己管理手法と比較して,クラストークンとパッチトークンの両方でクラス内知識蒸留が可能である。
簡単な設計による手法は,従来の手法を大きなマージンで上回り,新たなスタート・オブ・ザ・アーティファクトを実現する。
論文 参考訳(メタデータ) (2023-03-25T03:31:46Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Rectify ViT Shortcut Learning by Visual Saliency [40.55418820114868]
ショートカット学習は一般的だが、ディープラーニングモデルには有害である。
本研究では,ショートカット学習の精度向上を目的とした,新規かつ効果的なサリエンシ誘導型視覚変換器(SGT)モデルを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:54:07Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。