論文の概要: A Large-Scale Study on the Accuracy vs Cost Trade-offs of Training and Evaluation Settings in Fine-Grained Image Recognition
- arxiv url: http://arxiv.org/abs/2605.18700v1
- Date: Mon, 18 May 2026 17:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.204968
- Title: A Large-Scale Study on the Accuracy vs Cost Trade-offs of Training and Evaluation Settings in Fine-Grained Image Recognition
- Title(参考訳): ファイングレード画像認識におけるトレーニングと評価設定の精度対コストトレードオフに関する大規模研究
- Authors: Edwin Arkel Rios, Augusto Christian Surya, Oswin Gosal, Fernando Mikael, Mary Madeline Nicole, Kisoon Jang, Bo-Cheng Lai, Min-Chun Hu,
- Abstract要約: 6つのトレーニングと評価設定、9つの事前訓練されたバックボーン、17のデータセットで2000以上の実験を行い、大規模な研究を行っている。
微粒化学習におけるデータ強化の有効性に関する予備的考察 : 対実的注意学習(CAL)の拡張を動機とする
推論コストを低減しつつ、競争精度を維持する効率的な評価専用変種を提案する。
- 参考スコア(独自算出の注目度): 38.6676446931066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work on fine-grained image recognition (FGIR) has established the importance of the backbone selection, but has neglected the accuracy-vs-cost trade-offs under different training and evaluation settings. In this work we conduct a large-scale study with over 2000 experiments across 6 training and evaluation settings, 9 pretrained backbones, and 17 datasets. Preliminary observations on the effectiveness of data augmentation for fine-grained training motivate us to extend Counterfactual Attention Learning (CAL), a state-of-the-art method based on data-aware cropping and masking augmentations, with cross-image discriminative region mixing augmentation. We also propose an efficient evaluation-only variant that maintains competitive accuracy while reducing inference costs by forfeiting the forward pass on discriminative crops that is normally used by CAL and similar FGIR methods. Our results show that data-aware augmentations during training only can enable a model to achieve excellent accuracy even without crops, significantly reducing inference costs. To support future research we share our code and checkpoints at: \url{https://github.com/arkel23/FGIR-Backbones}
- Abstract(参考訳): FGIR(きめ細かな画像認識)の研究は、バックボーンの選択の重要性を確立してきたが、異なるトレーニングと評価設定下での精度とコストのトレードオフを無視している。
本研究では,6つのトレーニングおよび評価設定,9つの事前トレーニングバックボーン,17のデータセットを対象に,2000以上の実験を大規模に実施する。
微粒化学習におけるデータ強化の有効性に関する予備的な観察は,データ認識のトリミングとマスキング強化に基づく最先端の手法であるCALを,クロスイメージの識別領域混合により拡張する動機となっている。
また,CAL法と類似のFGIR法で通常使用される差別作物の前方通過を禁止し,推論コストを抑えつつ,競争精度を維持する効率的な評価専用変種を提案する。
以上の結果から,訓練中のデータ認識の増大は,作物を使わずに優れた精度を達成できるだけでなく,推論コストを大幅に削減できることが示唆された。
将来の研究をサポートするために、コードとチェックポイントを共有します。
関連論文リスト
- Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - The Role of Pre-training Data in Transfer Learning [20.768366728182997]
プレトレーニングデータ分布が複数ショットおよびフル微調整性能に与える影響について検討する。
プレトレーニングされたデータソースの選択は、数ショットの転送には不可欠であることがわかったが、その役割は微調整のためにより多くのデータが利用可能になるにつれて減少する。
論文 参考訳(メタデータ) (2023-02-27T09:10:08Z) - Where Should I Spend My FLOPS? Efficiency Evaluations of Visual
Pre-training Methods [29.141145775835106]
固定されたFLOP予算が与えられた場合、代表的な視覚的タスクに対して高い正確性を得るために最適なデータセット、モデル、そして(自己監督的な)トレーニング方法は何ですか?
5つの大規模データセット(JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, COCO)と6つの事前学習方法(CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised)を検討した。
本稿の結果は,自己管理手法が本質的に大規模で未処理なデータにスケールする,という一般的な仮定に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2022-09-30T17:04:55Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。