論文の概要: Fine-Grained Image Recognition from Scratch with Teacher-Guided Data Augmentation
- arxiv url: http://arxiv.org/abs/2507.12157v1
- Date: Wed, 16 Jul 2025 11:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.375561
- Title: Fine-Grained Image Recognition from Scratch with Teacher-Guided Data Augmentation
- Title(参考訳): 教師誘導データ強化によるスクラッチからの微粒化画像認識
- Authors: Edwin Arkel Rios, Fernando Mikael, Oswin Gosal, Femiloye Oyerinde, Hao-Chun Liang, Bo-Cheng Lai, Min-Chun Hu,
- Abstract要約: きめ細かい画像認識(FGIR)は、視覚的に類似したサブカテゴリをより広いクラスで識別することを目的としている。
既存のFGIRメソッドのほとんどは、ImageNetのような大規模データセットで事前訓練されたバックボーンに依存している。
我々は,細粒度教師モデルを用いて,データ認識の強化と教師の監督の弱さを統合した新しいトレーニングフレームワークTGDAを導入する。
- 参考スコア(独自算出の注目度): 40.72028191529961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained image recognition (FGIR) aims to distinguish visually similar sub-categories within a broader class, such as identifying bird species. While most existing FGIR methods rely on backbones pretrained on large-scale datasets like ImageNet, this dependence limits adaptability to resource-constrained environments and hinders the development of task-specific architectures tailored to the unique challenges of FGIR. In this work, we challenge the conventional reliance on pretrained models by demonstrating that high-performance FGIR systems can be trained entirely from scratch. We introduce a novel training framework, TGDA, that integrates data-aware augmentation with weak supervision via a fine-grained-aware teacher model, implemented through knowledge distillation. This framework unlocks the design of task-specific and hardware-aware architectures, including LRNets for low-resolution FGIR and ViTFS, a family of Vision Transformers optimized for efficient inference. Extensive experiments across three FGIR benchmarks over diverse settings involving low-resolution and high-resolution inputs show that our method consistently matches or surpasses state-of-the-art pretrained counterparts. In particular, in the low-resolution setting, LRNets trained with TGDA improve accuracy by up to 23\% over prior methods while requiring up to 20.6x less parameters, lower FLOPs, and significantly less training data. Similarly, ViTFS-T can match the performance of a ViT B-16 pretrained on ImageNet-21k while using 15.3x fewer trainable parameters and requiring orders of magnitudes less data. These results highlight TGDA's potential as an adaptable alternative to pretraining, paving the way for more efficient fine-grained vision systems.
- Abstract(参考訳): きめ細かい画像認識(FGIR)は、視覚的に類似したサブカテゴリをより広いクラスで識別することを目的としている。
多くの既存のFGIRメソッドはImageNetのような大規模データセットで事前訓練されたバックボーンに依存しているが、この依存はリソース制約のある環境への適応性を制限し、FGIRのユニークな課題に合わせたタスク固有のアーキテクチャの開発を妨げる。
本研究では,高速FGIRシステムをスクラッチから完全に訓練できることを実証することにより,事前学習モデルへの従来の依存に挑戦する。
我々は,知識蒸留により実装された細粒度教師モデルを用いて,データ認識強化と弱監督を統合した新しいトレーニングフレームワークTGDAを導入する。
このフレームワークは、低解像度FGIR用のLRNetや効率的な推論に最適化されたビジョントランスフォーマーのファミリであるViTFSなど、タスク固有のハードウェア対応アーキテクチャの設計をアンロックする。
低分解能および高分解能入力を含む多種多様な設定に対する3つのFGIRベンチマークの広範な実験により、我々の手法は、最先端の事前訓練済みの手法と一貫して一致または超えていることが示された。
特に低解像度環境では、TGDAで訓練されたLRNetは、パラメータを最大20.6倍、FLOPを低く、トレーニングデータを大幅に減らしながら、従来の手法よりも最大23\%精度を向上する。
同様に、ViTFS-Tは、ImageNet-21kで事前訓練されたVT B-16の性能と、15.3倍のトレーニング可能なパラメータを使用し、桁違いのデータを必要とする。
これらの結果は、TGDAが事前訓練の代替となる可能性を強調し、より効率的な微細な視覚システムへの道を開いた。
関連論文リスト
- Fine-grained Image Retrieval via Dual-Vision Adaptation [32.27084080471636]
Fine-Grained Image Retrieval (FGIR)は、識別的視覚表現を学習し、類似した微細な特徴を持つ画像を検索する際の課題に直面している。
本稿では,FGIRのFGIRモデルに対するDual-Vision Adaptation (DVA)アプローチを提案する。
論文 参考訳(メタデータ) (2025-06-19T12:46:55Z) - ScaleKD: Strong Vision Transformers Could Be Excellent Teachers [15.446480934024652]
本稿では, 簡便かつ効果的な知識蒸留法であるScaleKDを提案する。
本手法は,画像分類データセット上で,さまざまな畳み込みニューラルネットワーク(CNN),多層パーセプトロン(MLP),ViTアーキテクチャにまたがる学生のバックボーンを訓練することができる。
教師モデルやその事前学習データセットのサイズをスケールアップする際,提案手法は所望のスケーラブルな特性を示す。
論文 参考訳(メタデータ) (2024-11-11T08:25:21Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Pre-trained Vision and Language Transformers Are Few-Shot Incremental Learners [19.579098962615795]
FSCIL(Few-Shot Class Incremental Learning)は、クラスごとにいくつかのサンプルしか与えられていないことを忘れずに、新しいクラスを漸進的に学習するモデルを必要とするタスクである。
FSCILは2つの大きな課題に直面している。
大規模なデータセットで事前訓練された視覚や言語変換器のような大規模モデルは、数発のインクリメンタル学習者には優れていると我々は主張する。
論文 参考訳(メタデータ) (2024-04-02T17:23:22Z) - Efficient Training for Visual Tracking with Deformable Transformer [0.0]
本稿では、エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを紹介する。
本フレームワークは、変形可能なトランスデコーダがターゲットヘッドとして機能する効率的なエンコーダ・デコーダ構造を用いる。
トレーニングには,新しい1対多ラベルの割り当てと補助的認知技術を導入する。
論文 参考訳(メタデータ) (2023-09-06T03:07:43Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Teacher Guided Training: An Efficient Framework for Knowledge Transfer [86.6784627427194]
高品質なコンパクトモデルを訓練するための教師誘導訓練(TGT)フレームワークを提案する。
TGTは、教師が基礎となるデータドメインの優れた表現を取得したという事実を利用する。
TGTは複数の画像分類ベンチマークやテキスト分類や検索タスクの精度を向上させることができる。
論文 参考訳(メタデータ) (2022-08-14T10:33:58Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。