論文の概要: Distilling from Similar Tasks for Transfer Learning on a Budget
- arxiv url: http://arxiv.org/abs/2304.12314v1
- Date: Mon, 24 Apr 2023 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 13:50:01.022567
- Title: Distilling from Similar Tasks for Transfer Learning on a Budget
- Title(参考訳): 予算の移動学習における類似課題からの蒸留
- Authors: Kenneth Borup, Cheng Perng Phoo and Bharath Hariharan
- Abstract要約: 転送学習は、ラベルの少ないトレーニングに有効なソリューションであるが、大きなベースモデルの計算的にコストのかかる微調整を犠牲にすることがしばしばある。
本稿では,半教師付きクロスドメイン蒸留による計算と精度のトレードオフを軽減することを提案する。
我々の手法は、ソースデータにアクセスする必要はなく、単にソースモデルの機能や擬似ラベルが必要なだけである。
- 参考スコア(独自算出の注目度): 38.998980344852846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenge of getting efficient yet accurate recognition
systems with limited labels. While recognition models improve with model size
and amount of data, many specialized applications of computer vision have
severe resource constraints both during training and inference. Transfer
learning is an effective solution for training with few labels, however often
at the expense of a computationally costly fine-tuning of large base models. We
propose to mitigate this unpleasant trade-off between compute and accuracy via
semi-supervised cross-domain distillation from a set of diverse source models.
Initially, we show how to use task similarity metrics to select a single
suitable source model to distill from, and that a good selection process is
imperative for good downstream performance of a target model. We dub this
approach DistillNearest. Though effective, DistillNearest assumes a single
source model matches the target task, which is not always the case. To
alleviate this, we propose a weighted multi-source distillation method to
distill multiple source models trained on different domains weighted by their
relevance for the target task into a single efficient model (named
DistillWeighted). Our methods need no access to source data, and merely need
features and pseudo-labels of the source models. When the goal is accurate
recognition under computational constraints, both DistillNearest and
DistillWeighted approaches outperform both transfer learning from strong
ImageNet initializations as well as state-of-the-art semi-supervised techniques
such as FixMatch. Averaged over 8 diverse target tasks our multi-source method
outperforms the baselines by 5.6%-points and 4.5%-points, respectively.
- Abstract(参考訳): ラベルを限定した効率的かつ正確な認識システムを実現するという課題に対処する。
認識モデルはモデルサイズとデータ量によって改善されるが、コンピュータビジョンの専門的な応用の多くは、トレーニングと推論の両方において厳しい資源制約を持っている。
転送学習は、ラベルの少ないトレーニングに有効なソリューションであるが、大きなベースモデルの計算的にコストのかかる微調整を犠牲にすることがしばしばある。
本稿では,多種多様な原料モデルから半教師付きクロスドメイン蒸留により,計算と精度との不快なトレードオフを軽減することを提案する。
はじめに、タスク類似度メトリクスを使用して、蒸留に適した1つのソースモデルを選択する方法を示し、適切な選択プロセスが、ターゲットモデルの適切な下流パフォーマンスに不可欠であることを示す。
このアプローチはDistillNearestをダブしています。
DistillNearestは効果的だが、単一のソースモデルがターゲットのタスクと一致していると仮定する。
そこで本研究では, 異なる領域で訓練された複数の原料モデルを, 目的とするタスクに重み付けして, 単一の効率的なモデルに蒸留する重み付け多元蒸留法を提案する。
我々のメソッドはソースデータへのアクセスを必要とせず、単にソースモデルのフィーチャと擬似ラベルを必要とします。
目的が計算上の制約の下での正確な認識である場合、distillnearestとdistillweightedの両方のアプローチは、強力なimagenet初期化からの転送学習とfixmatchのような最先端のセミ教師付き技術の両方よりも優れている。
私たちのマルチソースメソッドは、平均8つ以上の多様なターゲットタスクでベースラインを5.6%ポイントと4.5%ポイントで上回ります。
関連論文リスト
- NegMerge: Consensual Weight Negation for Strong Machine Unlearning [21.081262106431506]
機械学習は、モデルから特定の知識を選択的に除去することを目的としている。
現在の手法は、左折セットの微調整モデルに依存し、タスクベクトルを生成し、元のモデルからそれを減算する。
1つのモデルを選択するのではなく、与えられた細調整されたモデルをすべて活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T00:50:54Z) - Cross-Domain Transfer Learning with CoRTe: Consistent and Reliable
Transfer from Black-Box to Lightweight Segmentation Model [25.3403116022412]
CoRTeは、ブラックボックスソースモデルから信頼できる知識を抽出する擬似ラベリング関数である。
我々は,2つの合成から現実の環境でCoRTeをベンチマークし,ブラックボックスモデルを用いて目標データ分布の軽量モデルにおける知識を伝達する際,顕著な結果を示した。
論文 参考訳(メタデータ) (2024-02-20T16:35:14Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Unsupervised Multi-source Domain Adaptation Without Access to Source
Data [58.551861130011886]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから知識を転送することで、ラベル付きドメインの予測モデルを学ぶことを目的としている。
本稿では,ソースモデルと適切な重み付けを自動的に組み合わせ,少なくとも最良のソースモデルと同等の性能を発揮する新しい効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-05T10:45:12Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。