論文の概要: Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
across Computer Vision Tasks
- arxiv url: http://arxiv.org/abs/2310.19909v1
- Date: Mon, 30 Oct 2023 18:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:00:52.929013
- Title: Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
across Computer Vision Tasks
- Title(参考訳): バックボーンの戦い - コンピュータビジョンタスク間で事前訓練されたモデルの大規模比較
- Authors: Micah Goldblum, Hossein Souri, Renkun Ni, Manli Shu, Viraj Prabhu,
Gowthami Somepalli, Prithvijit Chattopadhyay, Mark Ibrahim, Adrien Bardes,
Judy Hoffman, Rama Chellappa, Andrew Gordon Wilson, Tom Goldstein
- Abstract要約: Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。
視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。
同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
- 参考スコア(独自算出の注目度): 139.3768582233067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network based computer vision systems are typically built on a
backbone, a pretrained or randomly initialized feature extractor. Several years
ago, the default option was an ImageNet-trained convolutional neural network.
However, the recent past has seen the emergence of countless backbones
pretrained using various algorithms and datasets. While this abundance of
choice has led to performance increases for a range of systems, it is difficult
for practitioners to make informed decisions about which backbone to choose.
Battle of the Backbones (BoB) makes this choice easier by benchmarking a
diverse suite of pretrained models, including vision-language models, those
trained via self-supervised learning, and the Stable Diffusion backbone, across
a diverse set of computer vision tasks ranging from classification to object
detection to OOD generalization and more. Furthermore, BoB sheds light on
promising directions for the research community to advance computer vision by
illuminating strengths and weakness of existing approaches through a
comprehensive analysis conducted on more than 1500 training runs. While vision
transformers (ViTs) and self-supervised learning (SSL) are increasingly
popular, we find that convolutional neural networks pretrained in a supervised
fashion on large training sets still perform best on most tasks among the
models we consider. Moreover, in apples-to-apples comparisons on the same
architectures and similarly sized pretraining datasets, we find that SSL
backbones are highly competitive, indicating that future works should perform
SSL pretraining with advanced architectures and larger pretraining datasets. We
release the raw results of our experiments along with code that allows
researchers to put their own backbones through the gauntlet here:
https://github.com/hsouri/Battle-of-the-Backbones
- Abstract(参考訳): ニューラルネットワークベースのコンピュータビジョンシステムは一般的に、事前訓練またはランダムに初期化された特徴抽出器であるバックボーン上に構築される。
数年前、デフォルトオプションはimagenetがトレーニングした畳み込みニューラルネットワークだった。
しかし、最近は様々なアルゴリズムやデータセットを使って事前訓練された無数のバックボーンが出現している。
このような選択の多さは、さまざまなシステムのパフォーマンス向上に繋がる一方で、どのバックボーンを選択するべきかのインフォームドな決定を行うことは困難である。
battle of the backbones(bob)は、視覚言語モデル、自己教師付き学習で訓練されたモデル、安定した拡散バックボーンを含む、さまざまな事前学習されたモデルスイートを、分類からオブジェクト検出、ood一般化まで、さまざまなコンピュータビジョンタスクにまたがってベンチマークすることにより、この選択を簡単にする。
さらにBoBは、1500以上のトレーニングランで実施された総合的な分析を通じて、既存のアプローチの強みと弱みを照らすことによって、研究コミュニティがコンピュータビジョンを推し進めるための有望な方向性に光を当てている。
視覚トランスフォーマー(vits)と自己教師付き学習(ssl)はますます人気が高まっているが、大規模トレーニングセットで教師付きで事前学習された畳み込みニューラルネットワークは、我々が検討するモデルの中で、ほとんどのタスクで最高のパフォーマンスを保っている。
さらに、同じアーキテクチャと同じような大きさの事前トレーニングデータセットに対するリンゴとアプリケーションの比較では、SSLバックボーンは非常に競争力があり、将来の作業は高度なアーキテクチャとより大きな事前トレーニングデータセットでSSL事前トレーニングを実行するべきであることを示しています。
私たちは実験の生の結果をコードとともにリリースし、研究者が独自のバックボーンをgauntletに配置できるようにしました。
関連論文リスト
- Which Backbone to Use: A Resource-efficient Domain Specific Comparison for Computer Vision [4.600687314645625]
ImageNetのような大規模なデータセットで事前トレーニングされたアーキテクチャバックボーンは、一般的に機能抽出器として使用される。
本研究は、一貫したトレーニング設定下で、複数の軽量で事前訓練されたCNNバックボーンを体系的に評価する。
本研究は,異なるバックボーンの性能トレードオフと有効性について,実用的な知見を提供する。
論文 参考訳(メタデータ) (2024-06-09T02:01:25Z) - Comparison of self-supervised in-domain and supervised out-domain transfer learning for bird species recognition [0.19183348587701113]
別のタスクを支援するために事前訓練されたモデルの重みを移すことは、現代のディープラーニングの重要な部分となっている。
本実験は,鳥種認識のためのドメイン内モデルとデータセットの有用性を実証するものである。
論文 参考訳(メタデータ) (2024-04-26T08:47:28Z) - Transfer Learning between Motor Imagery Datasets using Deep Learning --
Validation of Framework and Comparison of Datasets [0.0]
本稿では,コンピュータビジョンによく用いられる,シンプルなディープラーニングベースのフレームワークを提案する。
精神画像復号処理におけるデータセット間変換学習の有効性を実証する。
論文 参考訳(メタデータ) (2023-09-04T20:58:57Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Ensembling Off-the-shelf Models for GAN Training [55.34705213104182]
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。
本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
論文 参考訳(メタデータ) (2021-12-16T18:59:50Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。