論文の概要: Extract More from Less: Efficient Fine-Grained Visual Recognition in Low-Data Regimes
- arxiv url: http://arxiv.org/abs/2406.19814v1
- Date: Fri, 28 Jun 2024 10:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:10:02.963238
- Title: Extract More from Less: Efficient Fine-Grained Visual Recognition in Low-Data Regimes
- Title(参考訳): 低データレジームにおける高精細画像認識の高速化
- Authors: Dmitry Demidov, Abduragim Shtanchaev, Mihail Mihaylov, Mohammad Almansoori,
- Abstract要約: 本稿では,この課題に対するディープニューラルネットワークの性能向上を目的とした,AD-Netと呼ばれる新しいフレームワークを提案する。
特に, 本手法は, 強化試料を自己蒸留し, 有害なオーバーフィッティングを緩和することにより, 学習機能を洗練することを目的としている。
最小限のデータで、我々のフレームワークは、最大で45%の精度で顕著な相対的正確性を示した。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The emerging task of fine-grained image classification in low-data regimes assumes the presence of low inter-class variance and large intra-class variation along with a highly limited amount of training samples per class. However, traditional ways of separately dealing with fine-grained categorisation and extremely scarce data may be inefficient under both these harsh conditions presented together. In this paper, we present a novel framework, called AD-Net, aiming to enhance deep neural network performance on this challenge by leveraging the power of Augmentation and Distillation techniques. Specifically, our approach is designed to refine learned features through self-distillation on augmented samples, mitigating harmful overfitting. We conduct comprehensive experiments on popular fine-grained image classification benchmarks where our AD-Net demonstrates consistent improvement over traditional fine-tuning and state-of-the-art low-data techniques. Remarkably, with the smallest data available, our framework shows an outstanding relative accuracy increase of up to 45 % compared to standard ResNet-50 and up to 27 % compared to the closest SOTA runner-up. We emphasise that our approach is practically architecture-independent and adds zero extra cost at inference time. Additionally, we provide an extensive study on the impact of every framework's component, highlighting the importance of each in achieving optimal performance. Source code and trained models are publicly available at github.com/demidovd98/fgic_lowd.
- Abstract(参考訳): 低データ体制におけるきめ細かい画像分類の課題は、クラスごとのトレーニングサンプルの量に制限があるとともに、クラス間のばらつきが低く、クラス内の大きなばらつきが存在することを前提としている。
しかし、細粒度分類と極めて少ないデータを別々に扱う従来の方法は、これらの厳密な条件が共に提示される場合、非効率である可能性がある。
本稿では,Augmentation と Distillation の力を生かして,この課題に対する深層ニューラルネットワークの性能向上を目的とした,AD-Net と呼ばれる新しいフレームワークを提案する。
特に, 本手法は, 強化試料を自己蒸留し, 有害なオーバーフィッティングを緩和することにより, 学習機能を洗練することを目的としている。
我々は、AD-Netが従来の微調整技術や最先端の低データ技術よりも一貫した改善を示すような、一般的なきめ細かい画像分類ベンチマークの包括的な実験を行う。
注目すべきは、利用可能な最小データでは、我々のフレームワークは、標準のResNet-50と比較して最大45パーセント、最も近いSOTAランナーに比べて最大27パーセントの顕著な相対的精度向上を示していることである。
このアプローチは事実上アーキテクチャに依存しないものであり、推論時に余分なコストをゼロにすることを強調します。
さらに、各フレームワークのコンポーネントへの影響について広範な研究を行い、最適なパフォーマンスを達成する上で、各フレームワークの重要性を強調します。
ソースコードとトレーニングされたモデルはgithub.com/demidovd98/fgic_lowdで公開されている。
関連論文リスト
- DRoP: Distributionally Robust Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Latent Enhancing AutoEncoder for Occluded Image Classification [2.6217304977339473]
LEARN: Latent Enhancing feature Reconstruction Networkを紹介する。
オートエンコーダベースのネットワークで、頭の前に分類モデルに組み込むことができる。
OccludedPASCAL3D+データセットでは、提案されたLEARNが標準分類モデルより優れている。
論文 参考訳(メタデータ) (2024-02-10T12:22:31Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - Feedback-guided Data Synthesis for Imbalanced Classification [10.836265321046561]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Ortho-Shot: Low Displacement Rank Regularization with Data Augmentation
for Few-Shot Learning [23.465747123791772]
少数の分類において、第一の目的は、新しいクラスをうまく一般化する表現を学ぶことである。
オルソショット(Ortho-Shot)と呼ばれる効率的な低変位ランク(LDR)正規化戦略を提案する。
論文 参考訳(メタデータ) (2021-10-18T14:58:36Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - LaplaceNet: A Hybrid Energy-Neural Model for Deep Semi-Supervised
Classification [0.0]
深層半教師付き分類の最近の進歩は、前例のない性能に達している。
モデル複雑性を大幅に低減した深層半教師付き分類のための新しいフレームワークであるLaplaceNetを提案する。
本モデルは,複数のベンチマークデータセットを用いて,半教師付き深層分類のための最先端手法より優れる。
論文 参考訳(メタデータ) (2021-06-08T17:09:28Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。