論文の概要: Revisiting the Updates of a Pre-trained Model for Few-shot Learning
- arxiv url: http://arxiv.org/abs/2205.07874v1
- Date: Fri, 13 May 2022 08:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 12:59:59.315296
- Title: Revisiting the Updates of a Pre-trained Model for Few-shot Learning
- Title(参考訳): ファウショット学習のための事前学習モデルのアップデート再考
- Authors: Yujin Kim, Jaehoon Oh, Sungnyun Kim, Se-Young Yun
- Abstract要約: 我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
- 参考スコア(独自算出の注目度): 11.871523410051527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the recent few-shot learning algorithms are based on transfer
learning, where a model is pre-trained using a large amount of source data, and
the pre-trained model is updated using a small amount of target data afterward.
In transfer-based few-shot learning, sophisticated pre-training methods have
been widely studied for universal and improved representation. However, there
is little study on updating pre-trained models for few-shot learning. In this
paper, we compare the two popular updating methods, fine-tuning (i.e., updating
the entire network) and linear probing (i.e., updating only the linear
classifier), considering the distribution shift between the source and target
data. We find that fine-tuning is better than linear probing as the number of
samples increases, regardless of distribution shift. Next, we investigate the
effectiveness and ineffectiveness of data augmentation when pre-trained models
are fine-tuned. Our fundamental analyses demonstrate that careful
considerations of the details about updating pre-trained models are required
for better few-shot performance.
- Abstract(参考訳): 最近の数発の学習アルゴリズムのほとんどは転送学習に基づいており、大量のソースデータを用いてモデルを事前訓練し、その後少量のターゲットデータを用いて事前訓練されたモデルを更新する。
トランスファーベースの少数ショット学習では、普遍的および改良された表現のために洗練された事前学習法が広く研究されている。
しかし、事前学習されたモデルの更新に関する研究はほとんどない。
本稿では、ソースとターゲットデータの分散シフトを考慮した2つの一般的な更新手法、微調整(ネットワーク全体を更新する)と線形探索(線形分類器のみを更新する)を比較した。
分布シフトによらず,試料数の増加に伴い,微調整は線形プローブよりも優れていることがわかった。
次に,事前学習モデルの微調整におけるデータ拡張の有効性と非効率性について検討する。
本研究の基本的な分析は,プレトレーニング済みモデルの更新に関する詳細を慎重に検討することが必要であることを示す。
関連論文リスト
- Universality in Transfer Learning for Linear Models [18.427215139020625]
回帰モデルと二分分類モデルの両方を対象とした線形モデルにおける伝達学習の問題点について検討する。
我々は、厳密かつ厳密な分析を行い、事前訓練されたモデルと微調整されたモデルに対する一般化誤差(回帰)と分類誤差(二分分類)を関連付ける。
論文 参考訳(メタデータ) (2024-10-03T03:09:09Z) - Towards An Online Incremental Approach to Predict Students Performance [0.8287206589886879]
本稿では,オンライン分類器を更新するためのメモリベースのオンラインインクリメンタル学習手法を提案する。
提案手法は,現在の最先端技術と比較して10%近く向上し,モデル精度の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-05-03T17:13:26Z) - Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Continual Pre-Training of Large Language Models: How to (re)warm your
model? [21.8468835868142]
大規模言語モデル(LLM)はトークン上で定期的に事前訓練されるが、新しいデータが利用可能になると再起動する。
我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを続けながら,パイル(上流データ,300Bトークン)で事前訓練されたモデルのウォームアップフェーズについて検討した。
以上の結果から,上流データと下流データの損失は再温暖化によって増大するが,より長い実行でダウンストリームのパフォーマンスが向上し,大規模なダウンストリームデータセットに対して10億ドルからトレーニングしたモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-08-08T03:18:18Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Do Adversarially Robust ImageNet Models Transfer Better? [102.09335596483695]
逆向きに堅牢なモデルは、トランスファーラーニングに使用する場合、標準訓練されたモデルよりもよく機能する。
私たちの結果は、ロバストさが機能表現の改善につながるという最近の仮説と一致しています。
論文 参考訳(メタデータ) (2020-07-16T17:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。