論文の概要: Not All Models Are Equal: Predicting Model Transferability in a
Self-challenging Fisher Space
- arxiv url: http://arxiv.org/abs/2207.03036v1
- Date: Thu, 7 Jul 2022 01:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 12:48:41.390924
- Title: Not All Models Are Equal: Predicting Model Transferability in a
Self-challenging Fisher Space
- Title(参考訳): すべてのモデルが等しくない:自在なフィッシャー空間におけるモデル転送可能性の予測
- Authors: Wenqi Shao, Xun Zhao, Yixiao Ge, Zhaoyang Zhang, Lei Yang, Xiaogang
Wang, Ying Shan, Ping Luo
- Abstract要約: 本稿では、トレーニング済みのディープニューラルネットワークのランク付けと、下流タスクにおける最も転送可能なニューラルネットワークのスクリーニングの問題に対処する。
textbfSelf-challenging textbfFisher textbfDiscriminant textbfAnalysis (textbfSFDA)と呼ばれる新しい転送可能性指標を提案する。
- 参考スコア(独自算出の注目度): 51.62131362670815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses an important problem of ranking the pre-trained deep
neural networks and screening the most transferable ones for downstream tasks.
It is challenging because the ground-truth model ranking for each task can only
be generated by fine-tuning the pre-trained models on the target dataset, which
is brute-force and computationally expensive. Recent advanced methods proposed
several lightweight transferability metrics to predict the fine-tuning results.
However, these approaches only capture static representations but neglect the
fine-tuning dynamics. To this end, this paper proposes a new transferability
metric, called \textbf{S}elf-challenging \textbf{F}isher \textbf{D}iscriminant
\textbf{A}nalysis (\textbf{SFDA}), which has many appealing benefits that
existing works do not have. First, SFDA can embed the static features into a
Fisher space and refine them for better separability between classes. Second,
SFDA uses a self-challenging mechanism to encourage different pre-trained
models to differentiate on hard examples. Third, SFDA can easily select
multiple pre-trained models for the model ensemble. Extensive experiments on
$33$ pre-trained models of $11$ downstream tasks show that SFDA is efficient,
effective, and robust when measuring the transferability of pre-trained models.
For instance, compared with the state-of-the-art method NLEEP, SFDA
demonstrates an average of $59.1$\% gain while bringing $22.5$x speedup in
wall-clock time. The code will be available at
\url{https://github.com/TencentARC/SFDA}.
- Abstract(参考訳): 本稿では,事前学習したディープニューラルネットワークをランク付けし,下流タスクに対して最も転送可能なニューラルネットワークをスクリーニングするという重要な問題に対処する。
目標データセット上でトレーニング済みのモデルを微調整することで,各タスクの基幹モデルランキングを生成できるため,その処理はブルートフォースで計算コストがかかる。
最近の先進的な手法は、微調整結果を予測するために、いくつかの軽量トランスファービリティ指標を提案した。
しかし、これらのアプローチは静的表現のみをキャプチャするが、微調整ダイナミクスを無視する。
そこで本論文では,既存の著作物が持たない多くの魅力あるメリットを有する,新しい伝達可能性指標である「textbf{S}elf-challenging \textbf{F}isher \textbf{D}iscriminant \textbf{A}nalysis (\textbf{SFDA})」を提案する。
まず、sfdaは静的機能をフィッシャースペースに組み込んで、クラス間の分離性を改善することができる。
第二に、sfdaは、さまざまな事前訓練されたモデルにハードな例を区別するよう促すために、自己チャリングメカニズムを使用している。
第3に、SFDAはモデルのアンサンブルのために複数の事前訓練されたモデルを選択できる。
11ドルのダウンストリームタスクの335ドルの事前トレーニングモデルに関する広範囲な実験は、事前トレーニングされたモデルの転送性を測定する際、sfdaは効率的で効果的で堅牢であることを示している。
例えば、最先端のNLEEPと比較して、SFDAは平均59.1$\%の上昇を示し、ウォールクロック時間に22.5$xのスピードアップをもたらす。
コードは \url{https://github.com/TencentARC/SFDA} で入手できる。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Initialization Matters for Adversarial Transfer Learning [61.89451332757625]
我々は、逆向きに頑健な事前訓練モデルの必要性を発見する。
本稿では, 対向線形探索により得られる重み付き線形ヘッドを初期化する対向微調整のためのロバスト線形初期化法(RoLI)を提案する。
5つの異なる画像分類データセットにおいて,RoLIの有効性を実証し,新しい最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-10T00:51:05Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Two Independent Teachers are Better Role Model [7.001845833295753]
我々は3D-DenseUNetと呼ばれる新しいディープラーニングモデルを提案する。
ダウンサンプリングにおけるグローバルアグリゲーションブロックとして機能し、空間情報損失の問題を解決する。
また,ラベル予測の代わりにモデル重みを要約した「2つの独立教師」という手法を提案する。
論文 参考訳(メタデータ) (2023-06-09T08:22:41Z) - Finding the SWEET Spot: Analysis and Improvement of Adaptive Inference
in Low Resource Settings [6.463202903076821]
トレーニングデータに制限がある場合、適応推論の2つの主要なアプローチであるEarly-ExitとMulti-Modelを比較した。
Early-Exitは、マルチモデルアプローチのオーバーヘッドのために、より高速なトレードオフを提供する。
本稿では,SWEETを提案する。SWEETは,各分類器に独自のモデル重みの集合を割り当てる初期出力微調整法である。
論文 参考訳(メタデータ) (2023-06-04T09:16:39Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。