論文の概要: Ranking and Tuning Pre-trained Models: A New Paradigm of Exploiting
Model Hubs
- arxiv url: http://arxiv.org/abs/2110.10545v1
- Date: Wed, 20 Oct 2021 12:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 17:36:15.887197
- Title: Ranking and Tuning Pre-trained Models: A New Paradigm of Exploiting
Model Hubs
- Title(参考訳): トレーニング済みモデルのランク付けとチューニング - エクスプロイトモデルハブの新たなパラダイム
- Authors: Kaichao You, Yong Liu, Jianmin Wang, Michael I. Jordan, Mingsheng Long
- Abstract要約: 本稿では,事前学習したモデルのランク付けとチューニングにより,モデルハブを利用する新しいパラダイムを提案する。
最高のランク付けされたPTMは、モデルのアーキテクチャを好まない場合は、微調整とデプロイが可能です。
チューニング部は、専用メソッドを超越した、複数 PTM チューニングのための新しい手法を導入する。
- 参考スコア(独自算出の注目度): 136.4492678691406
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pre-trained model hubs with many pre-trained models (PTMs) have been a
cornerstone in deep learning. Although built at a high cost, they are in fact
\emph{under-exploited}: practitioners usually pick one PTM from the provided
model hub by popularity, and then fine-tune the PTM to solve the target task.
This na\"ve but common practice poses two obstacles to sufficiently exploiting
pre-trained model hubs: (1) the PTM selection procedure has no optimality
guarantee; (2) only one PTM is used while the rest PTMs are overlooked.
Ideally, to maximally exploit pre-trained model hubs, trying all combinations
of PTMs and extensively fine-tuning each combination of PTMs are required,
which incurs exponential combinations and unaffordable computational budget. In
this paper, we propose a new paradigm of exploiting model hubs by ranking and
tuning pre-trained models: (1) Our conference work~\citep{you_logme:_2021}
proposed LogME to estimate the maximum value of label evidence given features
extracted by pre-trained models, which can rank all the PTMs in a model hub for
various types of PTMs and tasks \emph{before fine-tuning}. (2) the best ranked
PTM can be fine-tuned and deployed if we have no preference for the model's
architecture, or the target PTM can be tuned by top-K ranked PTMs via the
proposed B-Tuning algorithm. The ranking part is based on the conference paper,
and we complete its theoretical analysis (convergence proof of the heuristic
evidence maximization procedure, and the influence of feature dimension) in
this paper. The tuning part introduces a novel Bayesian Tuning (B-Tuning)
method for multiple PTMs tuning, which surpasses dedicated methods designed for
homogeneous PTMs tuning and sets up new state of the art for heterogeneous PTMs
tuning. We believe the new paradigm of exploiting PTM hubs can interest a large
audience of the community.
- Abstract(参考訳): 多くの事前学習モデル(PTM)を持つ事前学習モデルハブは、ディープラーニングの基盤となっている。
実践者は一般的に、提供されたモデルハブから1つのPTMを選択し、ターゲットタスクを解決するためにPTMを微調整する。
このna\"ve but common practiceは、事前訓練されたモデルハブを十分に活用するための2つの障害を提起する: (1) ptm選択手順には最適性保証がない。
理想的には、事前訓練されたモデルハブを最大限活用するためには、PTMのすべての組み合わせを試し、各組み合わせを広範囲に微調整する必要がある。
本稿では,事前学習モデルのランク付けとチューニングにより,モデルハブを利用する新たなパラダイムを提案する。(1) 事前学習モデルから抽出した特徴量からラベルエビデンスを最大値として推定し,各種のPTMやタスクのモデルハブにおける全てのPTMをランク付けする,という,我々の会議ワーク~\citep{you_logme:_2021} の提案。
2) 最上位のPTMは、モデルアーキテクチャを好まない場合、微調整および展開が可能であり、また、ターゲットのPTMは、提案したB-Tuningアルゴリズムを介してトップKランクのPTMで調整できる。
ランク付け部は会議論文に基づいており,その理論的解析(ヒューリスティックな証拠の最大化手順の収束証明,特徴次元の影響)を本論文で完成する。
チューニング部では,複数 PTM チューニングのための新しい Bayesian Tuning (B-Tuning) 手法を導入し,同種 PTM チューニング用に設計された専用メソッドを超越し,異種 PTM チューニングのための新しい技術状態を設定する。
PTMハブを利用する新しいパラダイムは、コミュニティの大勢の聴衆を惹きつけることができると考えています。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Rethinking Class-incremental Learning in the Era of Large Pre-trained Models via Test-Time Adaptation [20.62749699589017]
クラス増分学習(クラス増分学習、class-incremental learning、CIL)は、クラスを新しいタスクから分類する逐次学習を伴う課題である。
本稿では,最初のタスクでアダプタを用いてPTMを微調整するTTACIL(Test-Time Adaptation for Class-Incremental Learning)を提案する。
私たちのTTACILは、PTMの豊富な機能によって各タスクの恩恵を受けながら、一切忘れることはありません。
論文 参考訳(メタデータ) (2023-10-17T13:06:39Z) - Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models [62.838689691468666]
我々は,各ローカルデータセットを最適に活用するためのフェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。
Fed-BBPTは、ローカルユーザーがレギュラーアグリゲーションを通じてプロンプトジェネレータを協調的に訓練するのを支援する中央サーバーに重点を置いている。
大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリの課題を、十分にサイドステップで解決している。
論文 参考訳(メタデータ) (2023-10-04T19:30:49Z) - Model Spider: Learning to Rank Pre-Trained Models Efficiently [42.56392378060269]
モデルスパイダーはトークンを構築し、トークンを介してモデルとタスクのペア間の適合度スコアを測定することを学ぶ。
モデルスパイダーは効率と選択能力のバランスをとり、ウェブ上でクモを捕食するようにPTMの選択を行う。
論文 参考訳(メタデータ) (2023-06-06T17:58:12Z) - Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need [84.3507610522086]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、古いクラスを忘れずに新しいクラスに適応することを目的としている。
近年の事前訓練は大きな進歩を遂げており、CILには膨大な事前訓練モデル(PTM)が利用できるようになった。
CILの中核となる要素は、モデル更新の適応性と知識伝達の一般化性である。
論文 参考訳(メタデータ) (2023-03-13T17:59:02Z) - ZooD: Exploiting Model Zoo for Out-of-Distribution Generalization [65.58562481279023]
PTMのランク付けと特徴選択によるアンサンブルのためのパラダイムであるZooDを提案する。
我々は,多様なアウト・オブ・ディストリビューション(OoD)タスクのための35のモデルからなる多様なモデル動物園において,我々のパラダイムを評価する。
論文 参考訳(メタデータ) (2022-10-17T16:31:57Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。