論文の概要: Which Pretrain Samples to Rehearse when Finetuning Pretrained Models?
- arxiv url: http://arxiv.org/abs/2402.08096v1
- Date: Mon, 12 Feb 2024 22:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:16:50.178447
- Title: Which Pretrain Samples to Rehearse when Finetuning Pretrained Models?
- Title(参考訳): 訓練済みモデルの微調整時にリハーサルするプレトレインサンプルは?
- Authors: Andrew Bai, Chih-Kuan Yeh, Cho-Jui Hsieh, Ankur Taly
- Abstract要約: 特定のタスクに関する微調整済みモデルが、テキストとビジョンタスクの事実上のアプローチになった。
このアプローチの落とし穴は、微調整中に起こる事前学習の知識を忘れることである。
本研究では,実際に忘れられているサンプルを識別・優先順位付けする新しいサンプリング手法であるmix-cdを提案する。
- 参考スコア(独自算出の注目度): 60.59376487151964
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-tuning pretrained foundational models on specific tasks is now the de
facto approach for text and vision tasks. A known pitfall of this approach is
the forgetting of pretraining knowledge that happens during finetuning.
Rehearsing samples randomly from the pretrain dataset is a common approach to
alleviate such forgetting. However, we find that random mixing unintentionally
includes samples which are not (yet) forgotten or unlearnable by the model. We
propose a novel sampling scheme, mix-cd, that identifies and prioritizes
samples that actually face forgetting, which we call collateral damage. Since
directly identifying collateral damage samples is computationally expensive, we
propose a procedure to estimate the distribution of such samples by tracking
the statistics of finetuned samples. Our approach is lightweight, easy to
implement, and can be seamlessly integrated into existing models, offering an
effective means to retain pretrain performance without additional computational
costs.
- Abstract(参考訳): 特定のタスクに関する微調整された基礎モデルが、テキストおよび視覚タスクの事実上のアプローチとなった。
このアプローチの既知の落とし穴は、微調整中に起こる事前学習知識の忘れることだ。
プレトレインデータセットからランダムにサンプルをリハーサルすることは、そのような忘れを緩和するための一般的なアプローチである。
しかし、ランダムな混合には、モデルによって忘れられたり、学習できなかったりしないサンプルが含まれる。
そこで我々は,実際に忘れられているサンプルを識別し,優先する新しいサンプリング手法であるmix-cdを提案する。
副次的損傷の直接同定は計算コストがかかるため, 微調整標本の統計を追跡し, その分布を推定する手法を提案する。
我々のアプローチは軽量で実装が容易で、既存のモデルにシームレスに統合することができ、計算コストを増すことなく事前訓練性能を維持する効果的な手段を提供する。
関連論文リスト
- Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - DE-CROP: Data-efficient Certified Robustness for Pretrained Classifiers [21.741026088202126]
そこで本研究では,いくつかのトレーニングサンプルを用いて,事前学習したモデルのロバスト性を証明する新しい手法を提案する。
提案手法は,各トレーニングサンプルに対応するクラス境界および補間標本を生成する。
複数のベンチマークデータセットのベースラインに対する大幅な改善と、課題のあるブラックボックス設定の下でも同様のパフォーマンスを報告しています。
論文 参考訳(メタデータ) (2022-10-17T10:41:18Z) - Forgetting Data from Pre-trained GANs [28.326418377665345]
特定の種類のサンプルを忘れないように、トレーニング後にモデルを後編集する方法について検討する。
我々は,GANに対して,忘れるべきサンプルの表現方法が異なる3つの異なるアルゴリズムを提供する。
我々のアルゴリズムは、完全再トレーニングのコストのごく一部で、高品質を維持しながらデータを忘れることができる。
論文 参考訳(メタデータ) (2022-06-29T03:46:16Z) - POODLE: Improving Few-shot Learning via Penalizing Out-of-Distribution
Samples [19.311470287767385]
そこで本研究では,対象クラス外からのラベル付きサンプルの配布外サンプルを用いて,数発の学習を改善することを提案する。
提案手法は, 実装が簡単で, 特徴抽出器に非依存であり, 事前学習に要する追加コストを伴わず軽量であり, インダクティブ設定とトランスダクティブ設定の両方に適用可能である。
論文 参考訳(メタデータ) (2022-06-08T18:59:21Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。