論文の概要: Deep Ensembles for Low-Data Transfer Learning
- arxiv url: http://arxiv.org/abs/2010.06866v2
- Date: Mon, 19 Oct 2020 10:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:26:23.617568
- Title: Deep Ensembles for Low-Data Transfer Learning
- Title(参考訳): 低データ転送学習のための深層アンサンブル
- Authors: Basil Mustafa and Carlos Riquelme and Joan Puigcerver and Andr\'e
Susano Pinto and Daniel Keysers and Neil Houlsby
- Abstract要約: 我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 21.578470914935938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the low-data regime, it is difficult to train good supervised models from
scratch. Instead practitioners turn to pre-trained models, leveraging transfer
learning. Ensembling is an empirically and theoretically appealing way to
construct powerful predictive models, but the predominant approach of training
multiple deep networks with different random initialisations collides with the
need for transfer via pre-trained weights. In this work, we study different
ways of creating ensembles from pre-trained models. We show that the nature of
pre-training itself is a performant source of diversity, and propose a
practical algorithm that efficiently identifies a subset of pre-trained models
for any downstream dataset. The approach is simple: Use nearest-neighbour
accuracy to rank pre-trained models, fine-tune the best ones with a small
hyperparameter sweep, and greedily construct an ensemble to minimise validation
cross-entropy. When evaluated together with strong baselines on 19 different
downstream tasks (the Visual Task Adaptation Benchmark), this achieves
state-of-the-art performance at a much lower inference budget, even when
selecting from over 2,000 pre-trained models. We also assess our ensembles on
ImageNet variants and show improved robustness to distribution shift.
- Abstract(参考訳): 低データ体制では、優れた教師付きモデルをゼロから訓練することは困難である。
代わりに、実践者はトランスファー学習を利用して、事前学習されたモデルに目を向ける。
組み立ては、強力な予測モデルを構築するための経験的かつ理論的に魅力的な方法であるが、異なるランダム初期化を持つ複数のディープネットワークをトレーニングする主要なアプローチは、事前訓練された重みによる転送の必要性と衝突する。
本研究では、事前学習されたモデルからアンサンブルを作成する様々な方法を研究する。
本稿では,事前学習自体が多様性の源泉であることを示し,下流データセットに対する事前学習モデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
アプローチは単純である: 事前訓練されたモデルのランク付けに最寄りの精度を使用し、小さなハイパーパラメータスイープで最高のモデルを微調整する。
19の下流タスク(Visual Task Adaptation Benchmark)の強いベースラインとともに評価されると、2000以上の事前訓練されたモデルから選択しても、はるかに低い推論予算で最先端のパフォーマンスを達成する。
また,imagenet 変種に関するアンサンブルを評価し,分散シフトに対するロバスト性も改善した。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Distributionally Robust Post-hoc Classifiers under Prior Shifts [31.237674771958165]
本研究では,クラスプライヤやグループプライヤの分布の変化による変化に頑健なトレーニングモデルの問題点について検討する。
本稿では,事前学習モデルからの予測に対するスケーリング調整を行う,非常に軽量なポストホック手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T00:54:57Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Revisiting the Updates of a Pre-trained Model for Few-shot Learning [11.871523410051527]
我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T08:47:06Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。