論文の概要: LogME: Practical Assessment of Pre-trained Models for Transfer Learning
- arxiv url: http://arxiv.org/abs/2102.11005v1
- Date: Mon, 22 Feb 2021 13:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 11:28:24.868431
- Title: LogME: Practical Assessment of Pre-trained Models for Transfer Learning
- Title(参考訳): LogME:トランスファー学習のための事前学習モデルの実践的評価
- Authors: Kaichao You, Yong Liu, Mingsheng Long, Jianmin Wang
- Abstract要約: 最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
- 参考スコア(独自算出の注目度): 80.24059713295165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies task adaptive pre-trained model selection, an
\emph{underexplored} problem of assessing pre-trained models so that models
suitable for the task can be selected from the model zoo without fine-tuning. A
pilot work~\cite{nguyen_leep:_2020} addressed the problem in transferring
supervised pre-trained models to classification tasks, but it cannot handle
emerging unsupervised pre-trained models or regression tasks. In pursuit of a
practical assessment method, we propose to estimate the maximum evidence
(marginalized likelihood) of labels given features extracted by pre-trained
models. The maximum evidence is \emph{less prone to over-fitting} than the
likelihood, and its \emph{expensive computation can be dramatically reduced} by
our carefully designed algorithm. The Logarithm of Maximum Evidence (LogME) can
be used to assess pre-trained models for transfer learning: a pre-trained model
with high LogME is likely to have good transfer performance. LogME is fast,
accurate, and general, characterizing it as \emph{the first practical
assessment method for transfer learning}. Compared to brute-force fine-tuning,
LogME brings over $3000\times$ speedup in wall-clock time. It outperforms prior
methods by a large margin in their setting and is applicable to new settings
that prior methods cannot deal with. It is general enough to diverse
pre-trained models (supervised pre-trained and unsupervised pre-trained),
downstream tasks (classification and regression), and modalities (vision and
language). Code is at \url{https://github.com/thuml/LogME}.
- Abstract(参考訳): 本論文では,前訓練モデルを評価するタスク適応型事前学習モデル選択問題である,タスクに適したモデルを微調整することなくモデル動物園から選択できるように検討する。
パイロットワーク~\cite{nguyen_leep:_2020}は、教師付きプリトレーニングモデルを分類タスクに転送する問題に対処したが、新しい未監督のプリトレーニングモデルや回帰タスクを扱うことはできない。
実用的評価法を追求するために,事前学習したモデルから抽出したラベルの最大エビデンス(マージ化可能性)を推定する。
最大の証拠は、その可能性よりも「emph{less likely to over-fitting}」であり、慎重に設計されたアルゴリズムによって、その「emph{expensive computing"」を劇的に減らすことができる。
最大証拠の対数(LogME)は、転送学習のための事前学習モデルを評価するために使用することができる。
LogMEは高速で正確であり、一般には「emph{the first practical evaluation method for transfer learning}」として特徴づけられる。
ブルートフォースの微調整と比較して、logmeは壁時計時間に3000\times$のスピードアップをもたらす。
これは、その設定において、以前のメソッドを大きなマージンで上回り、以前のメソッドが処理できない新しい設定に適用できる。
多様な事前訓練モデル(教師付き事前訓練と教師なし事前訓練)、下流タスク(分類と回帰)、モダリティ(ビジョンと言語)に十分一般的です。
コードは \url{https://github.com/thuml/LogME} にある。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Fast and Accurate Transferability Measurement by Evaluating Intra-class
Feature Variance [20.732095457775138]
転送可能性の測定は、ソースタスクからターゲットタスクに学習したトレーニング済みモデルがどのように転送可能かを定量化する。
本稿では,トランスファビリティを計測する高速かつ正確なアルゴリズムであるTMI(TRANSFERABILITY Measurement with Intra-CLASS FEATURE VARIANCE)を提案する。
論文 参考訳(メタデータ) (2023-08-11T07:50:40Z) - Continual Pre-Training of Large Language Models: How to (re)warm your
model? [21.8468835868142]
大規模言語モデル(LLM)はトークン上で定期的に事前訓練されるが、新しいデータが利用可能になると再起動する。
我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを続けながら,パイル(上流データ,300Bトークン)で事前訓練されたモデルのウォームアップフェーズについて検討した。
以上の結果から,上流データと下流データの損失は再温暖化によって増大するが,より長い実行でダウンストリームのパフォーマンスが向上し,大規模なダウンストリームデータセットに対して10億ドルからトレーニングしたモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-08-08T03:18:18Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。