論文の概要: Could Giant Pretrained Image Models Extract Universal Representations?
- arxiv url: http://arxiv.org/abs/2211.02043v1
- Date: Thu, 3 Nov 2022 17:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:35:22.360055
- Title: Could Giant Pretrained Image Models Extract Universal Representations?
- Title(参考訳): 巨大事前学習画像モデルは普遍表現を抽出できるか?
- Authors: Yutong Lin, Ze Liu, Zheng Zhang, Han Hu, Nanning Zheng, Stephen Lin,
Yue Cao
- Abstract要約: 本稿では,多種多様なコンピュータビジョンタスクに適用した凍結事前学習モデルについて述べる。
私たちの研究は、この凍結した設定にどのような事前学習タスクが最適か、凍結した設定を様々な下流タスクに柔軟にする方法、より大きなモデルサイズの影響について、質問に答えています。
- 参考スコア(独自算出の注目度): 94.97056702288317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frozen pretrained models have become a viable alternative to the
pretraining-then-finetuning paradigm for transfer learning. However, with
frozen models there are relatively few parameters available for adapting to
downstream tasks, which is problematic in computer vision where tasks vary
significantly in input/output format and the type of information that is of
value. In this paper, we present a study of frozen pretrained models when
applied to diverse and representative computer vision tasks, including object
detection, semantic segmentation and video action recognition. From this
empirical analysis, our work answers the questions of what pretraining task
fits best with this frozen setting, how to make the frozen setting more
flexible to various downstream tasks, and the effect of larger model sizes. We
additionally examine the upper bound of performance using a giant frozen
pretrained model with 3 billion parameters (SwinV2-G) and find that it reaches
competitive performance on a varied set of major benchmarks with only one
shared frozen base network: 60.0 box mAP and 52.2 mask mAP on COCO object
detection test-dev, 57.6 val mIoU on ADE20K semantic segmentation, and 81.7
top-1 accuracy on Kinetics-400 action recognition. With this work, we hope to
bring greater attention to this promising path of freezing pretrained image
models.
- Abstract(参考訳): 凍結事前学習モデルは、転送学習のための訓練済みのファインチューニングパラダイムの代替となる。
しかし、凍ったモデルでは下流のタスクに適応するためのパラメータが比較的少なく、入力/出力形式や価値ある情報の種類によってタスクが大きく異なるコンピュータビジョンでは問題となる。
本稿では,オブジェクト検出,意味セグメンテーション,ビデオアクション認識など,多様で代表的なコンピュータビジョンタスクに適用した場合の凍結事前学習モデルについて検討する。
この経験的分析から,私たちの研究は,この凍結設定に最も適合するプリトレーニングタスクは何か,冷凍設定をさまざまな下流タスクに柔軟にする方法,より大きなモデルサイズの影響について回答する。
さらに,30億のパラメータを持つ巨大凍結事前学習モデル(SwinV2-G)を用いて,COCOオブジェクト検出テストデブの60.0ボックスmAPと52.2マスクmAP,ADE20Kセマンティックセグメンテーションの57.6ヴァルmIoU,Kinetics-400アクション認識の81.7トップ-1の精度で,共有冷凍ベースネットワークの多種多様なベンチマーク上での競合性能を達成した。
この研究により、予め訓練された画像モデルを凍結するこの将来性のある経路に、より注意を向けることを期待します。
関連論文リスト
- MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.564722905991776]
我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。
Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-25T03:01:37Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文 参考訳(メタデータ) (2022-06-09T17:58:24Z) - Exploring the Limits of Large Scale Pre-training [34.18163065498687]
大規模機械学習の最近の進歩は、事前学習の改善が、ほとんどの下流タスクに好適に反映されることを示唆している。
この現象を考察し、上流の精度を高めると、下流のタスクの性能が飽和することを示す。
本稿では、飽和現象を反映し、上流タスクと下流タスクのパフォーマンスの非線形関係をキャプチャする下流パフォーマンスモデルを提案する。
論文 参考訳(メタデータ) (2021-10-05T14:49:00Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。