論文の概要: Which Backbone to Use: A Resource-efficient Domain Specific Comparison for Computer Vision
- arxiv url: http://arxiv.org/abs/2406.05612v1
- Date: Sun, 9 Jun 2024 02:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:56:27.538258
- Title: Which Backbone to Use: A Resource-efficient Domain Specific Comparison for Computer Vision
- Title(参考訳): どのバックボーンを使うべきか:コンピュータビジョンのためのリソース効率の良いドメイン特化比較
- Authors: Pranav Jeevan, Amit Sethi,
- Abstract要約: ImageNetのような大規模なデータセットで事前トレーニングされたアーキテクチャバックボーンは、一般的に機能抽出器として使用される。
本研究は、一貫したトレーニング設定下で、複数の軽量で事前訓練されたCNNバックボーンを体系的に評価する。
本研究は,異なるバックボーンの性能トレードオフと有効性について,実用的な知見を提供する。
- 参考スコア(独自算出の注目度): 4.600687314645625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In contemporary computer vision applications, particularly image classification, architectural backbones pre-trained on large datasets like ImageNet are commonly employed as feature extractors. Despite the widespread use of these pre-trained convolutional neural networks (CNNs), there remains a gap in understanding the performance of various resource-efficient backbones across diverse domains and dataset sizes. Our study systematically evaluates multiple lightweight, pre-trained CNN backbones under consistent training settings across a variety of datasets, including natural images, medical images, galaxy images, and remote sensing images. This comprehensive analysis aims to aid machine learning practitioners in selecting the most suitable backbone for their specific problem, especially in scenarios involving small datasets where fine-tuning a pre-trained network is crucial. Even though attention-based architectures are gaining popularity, we observed that they tend to perform poorly under low data finetuning tasks compared to CNNs. We also observed that some CNN architectures such as ConvNeXt, RegNet and EfficientNet performs well compared to others on a diverse set of domains consistently. Our findings provide actionable insights into the performance trade-offs and effectiveness of different backbones, facilitating informed decision-making in model selection for a broad spectrum of computer vision domains. Our code is available here: https://github.com/pranavphoenix/Backbones
- Abstract(参考訳): 現代のコンピュータビジョンアプリケーション、特に画像分類において、ImageNetのような大規模なデータセットで事前訓練されたアーキテクチャバックボーンは、一般的に特徴抽出器として使用される。
これらの事前訓練された畳み込みニューラルネットワーク(CNN)が広く使用されているにもかかわらず、さまざまなドメインやデータセットサイズにわたる、リソース効率のよいバックボーンのパフォーマンスを理解するには、依然としてギャップがある。
本研究は,自然画像,医用画像,銀河画像,リモートセンシング画像など,さまざまなデータセットに対して一貫したトレーニング設定の下で,複数の軽量で事前訓練されたCNNバックボーンを体系的に評価する。
この包括的な分析は、機械学習の実践者が特定の問題に最も適したバックボーンを選択するのを助けることを目的としている。
注目に基づくアーキテクチャが人気を博しているが、CNNに比べて低いデータ微調整作業では性能が低い傾向が見られた。
また、ConvNeXt、RegNet、EfficientNetなどのCNNアーキテクチャは、さまざまなドメインセットにおいて、他のアーキテクチャと比較して、一貫したパフォーマンスを保っています。
本研究は,様々なバックボーンの性能トレードオフと有効性に関する実用的な知見を提供し,コンピュータビジョン領域の幅広い領域におけるモデル選択における情報決定を容易にする。
私たちのコードはここにある。 https://github.com/pranavphoenix/Backbones
関連論文リスト
- Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
across Computer Vision Tasks [139.3768582233067]
Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。
視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。
同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T18:23:58Z) - Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data
Augmentation and Deep Ensemble Learning [2.1446056201053185]
我々は最近のSOTA(State-of-the-art)3D CNNの広範なベンチマークを提案し、データ拡張と深層アンサンブル学習の利点も評価した。
年齢予測,性別分類,統合失調症診断の3つの課題について,N=10kスキャンを含む多地点の脳解剖学的MRIデータセットを用いて実験を行った。
その結果,VBM画像の予測精度は擬似RAWデータよりも有意に向上した。
DenseNetとSmall-DenseNetは、私たちが提案したより軽量なバージョンで、すべてのデータレシエーションのパフォーマンスにおいて優れた妥協を提供する。
論文 参考訳(メタデータ) (2021-06-02T13:00:35Z) - Deep Features for training Support Vector Machine [16.795405355504077]
本稿では,訓練済みcnnから抽出した特徴に基づく汎用コンピュータビジョンシステムを開発した。
複数の学習特徴を単一の構造に組み合わせ、異なる画像分類タスクに取り組んでいます。
論文 参考訳(メタデータ) (2021-04-08T03:13:09Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - An Efficient Framework for Zero-Shot Sketch-Based Image Retrieval [36.254157442709264]
ゼロショットのSketchベースのImage Retrieval (ZS-SBIR)は、現実のアプリケーションであるため、コンピュータビジョンコミュニティの注目を集めている。
ZS-SBIRは、コンテンツベースの画像検索(CBIR)、ゼロショット学習、ドメイン適応など、複数のコンピュータビジョン問題の主な課題を継承する。
論文 参考訳(メタデータ) (2021-02-08T06:10:37Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Fusion of CNNs and statistical indicators to improve image
classification [65.51757376525798]
畳み込みネットワークは過去10年間、コンピュータビジョンの分野を支配してきた。
この傾向を長引かせる主要な戦略は、ネットワーク規模の拡大によるものだ。
我々は、異種情報ソースを追加することは、より大きなネットワークを構築するよりもCNNにとって費用対効果が高いと仮定している。
論文 参考訳(メタデータ) (2020-12-20T23:24:31Z) - Convolution Neural Network Architecture Learning for Remote Sensing
Scene Classification [22.29957803992306]
本稿では,リモートセンシングシーン分類のためのアーキテクチャ学習手法を提案する。
本稿では,勾配降下法を用いてアーキテクチャ空間の効率的な探索を可能にする学習戦略を提案する。
アーキテクチャジェネレータは、最終的にパラメータのセットを実験で使用されるCNNにマッピングします。
論文 参考訳(メタデータ) (2020-01-27T07:42:46Z) - Inferring Convolutional Neural Networks' accuracies from their
architectural characterizations [0.0]
CNNのアーキテクチャと性能の関係について検討する。
本稿では,2つのコンピュータビジョンに基づく物理問題において,その特性がネットワークの性能を予測できることを示す。
我々は機械学習モデルを用いて、トレーニング前にネットワークが一定のしきい値精度よりも優れた性能を発揮できるかどうかを予測する。
論文 参考訳(メタデータ) (2020-01-07T16:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。