論文の概要: Task-Robust Pre-Training for Worst-Case Downstream Adaptation
- arxiv url: http://arxiv.org/abs/2306.12070v3
- Date: Fri, 24 Nov 2023 07:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 04:07:48.085188
- Title: Task-Robust Pre-Training for Worst-Case Downstream Adaptation
- Title(参考訳): ダウンストリーム適応のためのタスクローバスト事前訓練
- Authors: Jianghui Wang, Yang Chen, Xingyu Xie, Cong Fang, Zhouchen Lin
- Abstract要約: プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
- 参考スコア(独自算出の注目度): 62.05108162160981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has achieved remarkable success when transferred to downstream
tasks. In machine learning, we care about not only the good performance of a
model but also its behavior under reasonable shifts of condition. The same
philosophy holds when pre-training a foundation model. However, the foundation
model may not uniformly behave well for a series of related downstream tasks.
This happens, for example, when conducting mask recovery regression where the
recovery ability or the training instances diverge like pattern features are
extracted dominantly on pre-training, but semantic features are also required
on a downstream task. This paper considers pre-training a model that guarantees
a uniformly good performance over the downstream tasks. We call this goal as
$\textit{downstream-task robustness}$. Our method first separates the upstream
task into several representative ones and applies a simple minimax loss for
pre-training. We then design an efficient algorithm to solve the minimax loss
and prove its convergence in the convex setting. In the experiments, we show
both on large-scale natural language processing and computer vision datasets
our method increases the metrics on worse-case downstream tasks. Additionally,
some theoretical explanations for why our loss is beneficial are provided.
Specifically, we show fewer samples are inherently required for the most
challenging downstream task in some cases.
- Abstract(参考訳): プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
機械学習では、モデルの優れたパフォーマンスだけでなく、合理的な状態変化下での振る舞いも気にしています。
同じ哲学は、基礎モデルの事前トレーニングで成り立つ。
しかし、基礎モデルは一連の下流タスクに対して一様に振る舞うことができない。
これは例えば、事前トレーニングにおいて、リカバリ能力やパターン特徴のようなトレーニングインスタンスが優勢に抽出されるようなマスクリカバリ回帰を行う場合には発生するが、下流タスクでは意味的特徴も必要となる。
本稿では,下流タスクに対して一様に優れた性能を保証するモデルを事前学習することを検討する。
この目標を $\textit{downstream-task robustness}$ と呼びます。
提案手法は,まず上流タスクを複数の代表タスクに分割し,事前学習に単純なミニマックスロスを適用する。
次に,最小限の損失を解くアルゴリズムを設計し,その収束性を凸設定で証明する。
実験では, 大規模自然言語処理とコンピュータビジョンデータセットの両方について, 提案手法が下降課題のメトリクスを増加させることを示す。
また、この損失がなぜ有益かという理論的説明も提供される。
特に、最も困難なダウンストリームタスクには、本質的に必要なサンプルが少ないことが示されています。
関連論文リスト
- How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Less is More: On the Feature Redundancy of Pretrained Models When
Transferring to Few-shot Tasks [120.23328563831704]
事前訓練されたモデルを下流タスクに転送することは、ターゲットデータと線形探索を行うのと同じくらい簡単である。
線形探索では, 下流データが少ない場合に, 事前学習した特徴が極めて冗長であることを示す。
論文 参考訳(メタデータ) (2023-10-05T19:00:49Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z) - On Transfer of Adversarial Robustness from Pretraining to Downstream
Tasks [1.8900691517352295]
下流タスクにおける線形予測子のロバスト性は、その基盤となる表現のロバスト性によって制約できることを示す。
本結果は,適応後の信頼性向上のために,表現関数の要求を特徴付けるための最初のステップを提供する。
論文 参考訳(メタデータ) (2022-08-07T23:00:40Z) - Rethinking supervised pre-training for better downstream transferring [46.09030708111374]
本稿では,Leave-One-Out K-Nearest-Neighbor(LOOK)に基づく教師付き事前学習手法を提案する。
上流タスクをオーバーフィットさせる問題は、各イメージにクラスラベルを共有することだけを要求することで解決される。
提案手法を大規模データセットに対して効率的に実装する手法を開発した。
論文 参考訳(メタデータ) (2021-10-12T13:57:38Z) - When does loss-based prioritization fail? [18.982933391138268]
ノイズや破損したデータのあるシナリオでは,損失に基づく加速度法が劣化することを示す。
例題の難易度は、ノイズを他のタイプの難易度例から正しく分離する必要がある。
論文 参考訳(メタデータ) (2021-07-16T07:23:15Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。