論文の概要: Benchmarking Unlearning for Vision Transformers
- arxiv url: http://arxiv.org/abs/2602.20114v1
- Date: Mon, 23 Feb 2026 18:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.947504
- Title: Benchmarking Unlearning for Vision Transformers
- Title(参考訳): 視覚変換器のベンチマークアンラーニング
- Authors: Kairan Zhao, Iurie Luca, Peter Triantafillou,
- Abstract要約: この研究は、異なるビジョントランスフォーマー(VT)と異なる能力でマシンアンラーニング(MU)アルゴリズムのパフォーマンスをベンチマークする最初のものである。
これは、CNNに対するVTsのトレーニングデータの特徴であり、異なるプロキシがパフォーマンスに与える影響を評価する。
全体として、この研究はベンチマークベースを提供し、VT上の既存の(そして将来の)MUアルゴリズムの再現性、公正、包括的な比較を可能にする。
- 参考スコア(独自算出の注目度): 4.9193859756091145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in machine unlearning (MU) has gained strong momentum: MU is now widely regarded as a critical capability for building safe and fair AI. In parallel, research into transformer architectures for computer vision tasks has been highly successful: Increasingly, Vision Transformers (VTs) emerge as strong alternatives to CNNs. Yet, MU research for vision tasks has largely centered on CNNs, not VTs. While benchmarking MU efforts have addressed LLMs, diffusion models, and CNNs, none exist for VTs. This work is the first to attempt this, benchmarking MU algorithm performance in different VT families (ViT and Swin-T) and at different capacities. The work employs (i) different datasets, selected to assess the impacts of dataset scale and complexity; (ii) different MU algorithms, selected to represent fundamentally different approaches for MU; and (iii) both single-shot and continual unlearning protocols. Additionally, it focuses on benchmarking MU algorithms that leverage training data memorization, since leveraging memorization has been recently discovered to significantly improve the performance of previously SOTA algorithms. En route, the work characterizes how VTs memorize training data relative to CNNs, and assesses the impact of different memorization proxies on performance. The benchmark uses unified evaluation metrics that capture two complementary notions of forget quality along with accuracy on unseen (test) data and on retained data. Overall, this work offers a benchmarking basis, enabling reproducible, fair, and comprehensive comparisons of existing (and future) MU algorithms on VTs. And, for the first time, it sheds light on how well existing algorithms work in VT settings, establishing a promising reference performance baseline.
- Abstract(参考訳): MUは、安全で公正なAIを構築するための重要な能力として広く認められている。
コンピュータビジョンタスクのためのトランスフォーマーアーキテクチャの研究は、CNNの強力な代替品として、VT(Vision Transformer)が出現し、非常に成功した。
しかし、視覚タスクのためのMU研究は、主にVTではなくCNNに焦点を当てている。
MU のベンチマークは LLM や拡散モデル、CNN に対処しているが、VT には存在しない。
これは、異なるVTファミリ(ViTとSwin-T)と異なるキャパシティでMUアルゴリズムのパフォーマンスをベンチマークする最初の試みである。
仕事は採用されます
i) データセットのスケールと複雑さの影響を評価するために選択された異なるデータセット。
(ii)MUの基本的な異なるアプローチを表すために選択された異なるMUアルゴリズム、及び
(iii)単発・連続的な未学習プロトコル。
さらに,従来のSOTAアルゴリズムの性能を著しく向上させるため,トレーニングデータの記憶を利用するMUアルゴリズムのベンチマークにも注目している。
その過程で、VTがCNNと比較してトレーニングデータを記憶する方法を特徴付け、異なる記憶プロキシがパフォーマンスに与える影響を評価する。
このベンチマークでは、統合評価メトリクスを使用して、未確認(テスト)データと保持されたデータの正確性とともに、品質を忘れるという2つの相補的な概念をキャプチャする。
全体として、この研究はベンチマークベースを提供し、VT上の既存の(そして将来の)MUアルゴリズムの再現性、公正、包括的な比較を可能にする。
そして、VT設定で既存のアルゴリズムがどのようにうまく機能するかを初めて明らかにし、有望なリファレンスパフォーマンスベースラインを確立します。
関連論文リスト
- TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。
まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文 参考訳(メタデータ) (2025-12-16T18:59:58Z) - A Comparative Study of Vision Transformers and CNNs for Few-Shot Rigid Transformation and Fundamental Matrix Estimation [3.5684665108045377]
視覚変換器(ViT)と大規模畳み込みニューラルネット(CNN)は、事前訓練された特徴表現を通じてコンピュータビジョンを再構築した。
本研究は,1)画像間の2次元剛性変換を推定し,2)ステレオ画像対の基本行列を予測する。
経験的比較分析は、スクラッチからのトレーニングと同様、ViTsは大規模なダウンストリームデータシナリオの洗練時にCNNを上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-06T13:18:27Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Human Re-ID Meets LVLMs: What can we expect? [14.370360290704197]
人間の再識別作業における主要な視覚言語モデルの性能を比較した。
以上の結果から,LVLMの強度は確認できたが,破滅的な回答につながる場合が多い。
論文 参考訳(メタデータ) (2025-01-30T19:00:40Z) - Deep Unlearn: Benchmarking Machine Unlearning for Image Classification [7.450700594277741]
機械学習(MU)は、訓練された機械学習モデルの学習可能なパラメータから、特定のデータポイントの影響を取り除くことを目的としている。
本稿では,様々なベンチマークデータセットおよびモデルを対象とした18種類の最先端MU手法について検討する。
論文 参考訳(メタデータ) (2024-10-02T06:41:58Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Benchmarking Detection Transfer Learning with Vision Transformers [60.97703494764904]
オブジェクト検出メソッドの複雑さは、ViT(Vision Transformer)モデルのような新しいアーキテクチャが到着するときに、ベンチマークを非簡単にする。
本研究では,これらの課題を克服し,標準的なVTモデルをMask R-CNNのバックボーンとして活用する訓練手法を提案する。
その結果,最近のマスキングに基づく教師なし学習手法は,COCOにおける説得力のあるトランスファー学習改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-22T18:59:15Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。