論文の概要: Representation Consolidation for Training Expert Students
- arxiv url: http://arxiv.org/abs/2107.08039v1
- Date: Fri, 16 Jul 2021 17:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:46:11.406958
- Title: Representation Consolidation for Training Expert Students
- Title(参考訳): 研修専門学生のための表現統合
- Authors: Zhizhong Li, Avinash Ravichandran, Charless Fowlkes, Marzia Polito,
Rahul Bhotika, Stefano Soatto
- Abstract要約: マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
- 参考スコア(独自算出の注目度): 54.90754502493968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, distillation has been used to train a student model to emulate
the input/output functionality of a teacher. A more useful goal than emulation,
yet under-explored, is for the student to learn feature representations that
transfer well to future tasks. However, we observe that standard distillation
of task-specific teachers actually *reduces* the transferability of student
representations to downstream tasks. We show that a multi-head, multi-task
distillation method using an unlabeled proxy dataset and a generalist teacher
is sufficient to consolidate representations from task-specific teacher(s) and
improve downstream performance, outperforming the teacher(s) and the strong
baseline of ImageNet pretrained features. Our method can also combine the
representational knowledge of multiple teachers trained on one or multiple
domains into a single model, whose representation is improved on all teachers'
domain(s).
- Abstract(参考訳): 伝統的に、蒸留は教師の入出力機能をエミュレートするために学生モデルを訓練するために用いられてきた。
エミュレーションよりも有用なゴールは、学生が将来のタスクにうまく移行する特徴表現を学ぶことである。
しかし, タスク特化教師の標準蒸留は, 生徒表現の下流タスクへの移動性を *reduces* で表している。
本研究では,非ラベル型プロキシデータセットとジェネラリスト教師を用いたマルチヘッド・マルチタスク蒸留法によって,課題特定教師からの表現の統合と下流性能の向上,教師の優位化,イメージネット事前学習機能の強固なベースライン化が達成できることを示す。
提案手法は,複数の教師が1つないし複数のドメインで訓練した表現的知識を1つのモデルに組み合わせ,その表現をすべての教師のドメインで改善する。
関連論文リスト
- PromptKD: Unsupervised Prompt Distillation for Vision-Language Models [40.858721356497085]
本稿では,教師モデルの知識を軽量ターゲットモデルに伝達することを目的とした,教師なしドメインプロンプト蒸留フレームワークを提案する。
本フレームワークは,2つの異なる段階から構成される。初期段階では,ドメイン(フェーショット)ラベルを用いて,大規模なCLIP教師モデルを事前訓練する。
その後の段階では、記憶されたクラスベクトルを教師と生徒の画像エンコーダ間で共有し、予測ロジットを算出する。
論文 参考訳(メタデータ) (2024-03-05T08:53:30Z) - Let All be Whitened: Multi-teacher Distillation for Efficient Visual
Retrieval [57.17075479691486]
市販の事前学習型検索モデルから軽量な学生モデルに知識を伝達し,効率的な視覚的検索を可能にする多教師蒸留フレームワークWhiten-MTDを提案する。
ソースコードはhttps://github.com/Maryeon/whiten_mtd.comで公開されています。
論文 参考訳(メタデータ) (2023-12-15T11:43:56Z) - ERNIE 3.0 Tiny: Frustratingly Simple Method to Improve Task-Agnostic
Distillation Generalization [36.338614215561805]
タスクに依存しない知識蒸留は、リソース制約のあるシナリオにおいて、大きな事前訓練された言語モデルをデプロイする問題に対処しようとする。
我々は,タスク非依存蒸留におけるマルチタスク学習を活用して,結果の一般化を推し進めることができることを示す。
論文 参考訳(メタデータ) (2023-01-09T15:12:50Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Improving Ensemble Distillation With Weight Averaging and Diversifying
Perturbation [22.87106703794863]
アンサンブル教師からの知識の蒸留を、より小さな学生ネットワークに動機付ける。
本研究では,複数作業を行う学生を対象に,アンサンブル教師の機能的多様性を吸収するウェイト平均化手法を提案する。
また,教師の多様性をよりよく生徒に伝達できるインプットを求める摂動戦略を提案する。
論文 参考訳(メタデータ) (2022-06-30T06:23:03Z) - Faculty Distillation with Optimal Transport [53.69235109551099]
本稿では,教師の課題と生徒の課題を最適な輸送手段で結びつけることを提案する。
ラベル空間間の意味的関係に基づき、出力分布間の支持ギャップを埋めることができる。
各種条件下での実験は,提案手法の簡潔さと汎用性を示すものである。
論文 参考訳(メタデータ) (2022-04-25T09:34:37Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Representation Transfer by Optimal Transport [34.77292648424614]
2つの表現間の一致を定量化するために最適な輸送を用いる。
この距離は、生徒の表現と教師の表現の類似性を促進する正規化器を定義する。
論文 参考訳(メタデータ) (2020-07-13T23:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。