論文の概要: Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models
- arxiv url: http://arxiv.org/abs/2212.13180v1
- Date: Mon, 26 Dec 2022 15:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:52:24.235526
- Title: Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models
- Title(参考訳): 大規模モデルのためのプロトタイプ誘導クロスタスク知識蒸留
- Authors: Deng Li, Aming Wu, Yahong Han, Qi Tian
- Abstract要約: クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。
本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
- 参考スコア(独自算出の注目度): 103.04711721343278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale pre-trained models have shown their advantages in many
tasks. However, due to the huge computational complexity and storage
requirements, it is challenging to apply the large-scale model to real scenes.
A common solution is knowledge distillation which regards the large-scale model
as a teacher model and helps to train a small student model to obtain a
competitive performance. Cross-task Knowledge distillation expands the
application scenarios of the large-scale pre-trained model. Existing knowledge
distillation works focus on directly mimicking the final prediction or the
intermediate layers of the teacher model, which represent the global-level
characteristics and are task-specific. To alleviate the constraint of different
label spaces, capturing invariant intrinsic local object characteristics (such
as the shape characteristics of the leg and tail of the cattle and horse) plays
a key role. Considering the complexity and variability of real scene tasks, we
propose a Prototype-guided Cross-task Knowledge Distillation (ProC-KD) approach
to transfer the intrinsic local-level object knowledge of a large-scale teacher
network to various task scenarios. First, to better transfer the generalized
knowledge in the teacher model in cross-task scenarios, we propose a prototype
learning module to learn from the essential feature representation of objects
in the teacher model. Secondly, for diverse downstream tasks, we propose a
task-adaptive feature augmentation module to enhance the features of the
student model with the learned generalization prototype features and guide the
training of the student model to improve its generalization ability. The
experimental results on various visual tasks demonstrate the effectiveness of
our approach for large-scale model cross-task knowledge distillation scenes.
- Abstract(参考訳): 近年、大規模な事前訓練モデルでは、多くのタスクにおいてその利点が示されている。
しかし、計算の複雑さとストレージの要求が大きいため、大規模なモデルを現実のシーンに適用することは困難である。
一般的な解決策は知識蒸留であり、これは大規模なモデルを教師モデルとみなし、小さな学生モデルを訓練して競争性能を得るのに役立つ。
クロスタスク知識蒸留は、大規模事前学習モデルの応用シナリオを拡張する。
既存の知識蒸留作業は、グローバルレベルの特性を表す教師モデルの最終的な予測や中間層を直接模倣することに焦点を当てており、タスク固有である。
異なるラベル空間の制約を緩和するために、不変な内在的な局所的対象特性(牛や馬の足と尾の形状特性など)を捉えることが重要な役割を果たす。
実シーンタスクの複雑さと可変性を考慮して,大規模教師ネットワークの固有のローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するプロトタイプ誘導クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
まず,教師モデルにおける汎用知識をクロスタスクシナリオでよりよく伝達するために,教師モデルにおけるオブジェクトの本質的特徴表現から学習するためのプロトタイプ学習モジュールを提案する。
次に,多様な下流課題に対して,学習した一般化プロトタイプ機能を用いて学習モデルの特徴を高めるタスク適応機能拡張モジュールを提案し,その一般化能力を向上させるための学習モデルのトレーニングを指導する。
各種視覚課題に対する実験結果から,大規模モデルのクロスタスク知識蒸留シーンに対するアプローチの有効性が示された。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Generative Model-based Feature Knowledge Distillation for Action
Recognition [11.31068233536815]
本稿では,軽量学生モデルの学習のための生成モデルを用いた,革新的な知識蒸留フレームワークについて紹介する。
提案手法の有効性は,多種多様な人気データセットに対する総合的な実験によって実証される。
論文 参考訳(メタデータ) (2023-12-14T03:55:29Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。