論文の概要: FastDINOv2: Frequency Based Curriculum Learning Improves Robustness and Training Speed
- arxiv url: http://arxiv.org/abs/2507.03779v1
- Date: Fri, 04 Jul 2025 18:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.876364
- Title: FastDINOv2: Frequency Based Curriculum Learning Improves Robustness and Training Speed
- Title(参考訳): FastDINOv2: 周波数ベースのカリキュラム学習によりロバストさとトレーニング速度が向上
- Authors: Jiaqi Zhang, Juntuo Wang, Zhixin Sun, John Zou, Randall Balestriero,
- Abstract要約: DINOv2のような大規模ビジョンファウンデーションモデルは、大規模なアーキテクチャとトレーニングデータセットを活用することで、素晴らしいパフォーマンスを誇っている。
本稿では, コンバージェンスを同時に促進し, 副産物としての一般的な汚職に対する堅牢性を高めるDINOv2の事前学習戦略を提案する。
- 参考スコア(独自算出の注目度): 14.677270805094311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision foundation models such as DINOv2 boast impressive performances by leveraging massive architectures and training datasets. But numerous scenarios require practitioners to reproduce those pre-training solutions, such as on private data, new modalities, or simply for scientific questioning--which is currently extremely demanding computation-wise. We thus propose a novel pre-training strategy for DINOv2 that simultaneously accelerates convergence--and strengthens robustness to common corruptions as a by-product. Our approach involves a frequency filtering curriculum--low-frequency being seen first--and the Gaussian noise patching augmentation. Applied to a ViT-B/16 backbone trained on ImageNet-1K, while pre-training time and FLOPs are reduced by 1.6x and 2.25x, our method still achieves matching robustness in corruption benchmarks (ImageNet-C) and maintains competitive linear probing performance compared with baseline. This dual benefit of efficiency and robustness makes large-scale self-supervised foundation modeling more attainable, while opening the door to novel exploration around data curriculum and augmentation as means to improve self-supervised learning models robustness. The code is available at https://github.com/KevinZ0217/fast_dinov2
- Abstract(参考訳): DINOv2のような大規模ビジョンファウンデーションモデルは、大規模なアーキテクチャとトレーニングデータセットを活用することで、素晴らしいパフォーマンスを誇っている。
しかし、多くのシナリオでは、実践者は、プライベートデータや新しいモダリティ、あるいは科学的な質問のために、トレーニング済みのソリューションを再現する必要がある。
そこで我々は,DINOv2の収束を同時に加速し,副産物としての一般的な腐敗に対する堅牢性を高める新しい事前学習戦略を提案する。
提案手法は,まず低周波な周波数フィルタのカリキュラムと,ガウス雑音パッチの増大を含む。
ImageNet-1KでトレーニングしたViT-B/16のバックボーンに対して,事前学習時間とFLOPを1.6倍,2.25倍に削減する一方,本手法は依然として画像Net-C(英語版)において堅牢性に適合し,ベースラインと比較して競争力のある線形探索性能を維持している。
この効率性と堅牢性の二重の利点により、大規模自己教師型基礎モデリングがより実現可能となり、データカリキュラムと強化に関する新たな探索への扉を開き、自己教師型学習モデルロバストネスを改善する手段となる。
コードはhttps://github.com/KevinZ0217/fast_dinov2で公開されている。
関連論文リスト
- MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training [17.158498267947877]
ランタイム性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPを紹介する。
MobileCLIPは、画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を使用して、効率的なモデルの精度を向上させる。
我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。
論文 参考訳(メタデータ) (2023-11-28T18:55:42Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Sparsity Winning Twice: Better Robust Generalization from More Efficient
Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。
いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。
我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文 参考訳(メタデータ) (2022-02-20T15:52:08Z) - An Empirical Analysis of Recurrent Learning Algorithms In Neural Lossy
Image Compression Systems [73.48927855855219]
近年のディープラーニングの進歩により、JPEGとJPEG 2000を標準のKodakベンチマークで上回る画像圧縮アルゴリズムが実現している。
本稿では,最近の最先端ハイブリッドニューラル圧縮アルゴリズムの大規模比較を行う。
論文 参考訳(メタデータ) (2022-01-27T19:47:51Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。