論文の概要: Scalable Transfer Learning with Expert Models
- arxiv url: http://arxiv.org/abs/2009.13239v1
- Date: Mon, 28 Sep 2020 12:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 20:37:24.300559
- Title: Scalable Transfer Learning with Expert Models
- Title(参考訳): エキスパートモデルによるスケーラブルトランスファー学習
- Authors: Joan Puigcerver, Carlos Riquelme, Basil Mustafa, Cedric Renggli,
Andr\'e Susano Pinto, Sylvain Gelly, Daniel Keysers, Neil Houlsby
- Abstract要約: 我々は、単純だが効果的で戦略的な転送に専門家表現を用いる方法について検討する。
既存のラベル構造を利用して、さまざまな専門家のセットを訓練し、低コストで計算可能なパフォーマンスプロキシを使用して、目標タスクごとに関連する専門家を選択する。
この戦略は、転送中にトレーニング済みのデータを再考しないため、新しいタスクに転送するプロセスをスケールする。
- 参考スコア(独自算出の注目度): 32.48351077884257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer of pre-trained representations can improve sample efficiency and
reduce computational requirements for new tasks. However, representations used
for transfer are usually generic, and are not tailored to a particular
distribution of downstream tasks. We explore the use of expert representations
for transfer with a simple, yet effective, strategy. We train a diverse set of
experts by exploiting existing label structures, and use cheap-to-compute
performance proxies to select the relevant expert for each target task. This
strategy scales the process of transferring to new tasks, since it does not
revisit the pre-training data during transfer. Accordingly, it requires little
extra compute per target task, and results in a speed-up of 2-3 orders of
magnitude compared to competing approaches. Further, we provide an
adapter-based architecture able to compress many experts into a single model.
We evaluate our approach on two different data sources and demonstrate that it
outperforms baselines on over 20 diverse vision tasks in both cases.
- Abstract(参考訳): 事前訓練された表現の転送は、サンプル効率を改善し、新しいタスクの計算要求を減らすことができる。
しかしながら、転送に使用される表現は通常は汎用的であり、下流タスクの特定の分布に適合しない。
我々は、シンプルで効果的な戦略で、転送のためのエキスパート表現の使用を探求する。
我々は,既存のラベル構造を利用して多様な専門家を訓練し,安価に計算できるパフォーマンスプロキシを用いて,対象タスクごとに関連する専門家を選定する。
この戦略は、転送中にトレーニング済みのデータを再考しないため、新しいタスクに転送するプロセスをスケールする。
したがって、ターゲットタスク当たりの計算量がほとんど必要とせず、競合するアプローチに比べて2~3桁のスピードアップとなる。
さらに、多くの専門家を単一のモデルに圧縮できるアダプタベースのアーキテクチャを提供する。
このアプローチを2つの異なるデータソースで評価し,両ケースとも20以上の多様なビジョンタスクのベースラインを上回っていることを実証した。
関連論文リスト
- Transfer Learning for Structured Pruning under Limited Task Data [15.946734013984184]
本稿では,構造化プルーニングとトランスファーラーニングを組み合わせることで,タスク固有のデータの必要性を減らすフレームワークを提案する。
我々は,強いベースライン上での一般化を改良し,刈り取られたモデルが得られることを実証した。
論文 参考訳(メタデータ) (2023-11-10T20:23:35Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - CrossTransformers: spatially-aware few-shot transfer [92.33252608837947]
非常に少ないデータを持つ新しいタスクを考えると、現代の視覚システムは驚くほど急速に低下する。
現代の視覚システムを支えるニューラルネットワーク表現が、どのようにして監督の崩壊にさらされているかを示す。
そこで我々は,伝達を良くする汎用的な機能を促進するために,自己指導型学習を提案する。
論文 参考訳(メタデータ) (2020-07-22T15:37:08Z) - Representation Transfer by Optimal Transport [34.77292648424614]
2つの表現間の一致を定量化するために最適な輸送を用いる。
この距離は、生徒の表現と教師の表現の類似性を促進する正規化器を定義する。
論文 参考訳(メタデータ) (2020-07-13T23:42:06Z) - MetaPerturb: Transferable Regularizer for Heterogeneous Tasks and
Architectures [61.73533544385352]
本稿ではメタパーターブ(MetaPerturb)というトランスファー可能な摂動モデルを提案する。
MetaPerturbは、レイヤやタスクにまたがる多様な分散を訓練したセット関数であるため、異種タスクやアーキテクチャを一般化することができる。
論文 参考訳(メタデータ) (2020-06-13T02:54:59Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。