論文の概要: Representation Transfer by Optimal Transport
- arxiv url: http://arxiv.org/abs/2007.06737v2
- Date: Fri, 26 Feb 2021 06:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:15:33.225979
- Title: Representation Transfer by Optimal Transport
- Title(参考訳): 最適輸送による表現伝達
- Authors: Xuhong Li, Yves Grandvalet, R\'emi Flamary, Nicolas Courty, Dejing Dou
- Abstract要約: 2つの表現間の一致を定量化するために最適な輸送を用いる。
この距離は、生徒の表現と教師の表現の類似性を促進する正規化器を定義する。
- 参考スコア(独自算出の注目度): 34.77292648424614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning generic representations with deep networks requires massive training
samples and significant computer resources. To learn a new specific task, an
important issue is to transfer the generic teacher's representation to a
student network. In this paper, we propose to use a metric between
representations that is based on a functional view of neurons. We use optimal
transport to quantify the match between two representations, yielding a
distance that embeds some invariances inherent to the representation of deep
networks. This distance defines a regularizer promoting the similarity of the
student's representation with that of the teacher. Our approach can be used in
any learning context where representation transfer is applicable. We experiment
here on two standard settings: inductive transfer learning, where the teacher's
representation is transferred to a student network of same architecture for a
new related task, and knowledge distillation, where the teacher's
representation is transferred to a student of simpler architecture for the same
task (model compression). Our approach also lends itself to solving new
learning problems; we demonstrate this by showing how to directly transfer the
teacher's representation to a simpler architecture student for a new related
task.
- Abstract(参考訳): ディープネットワークで汎用表現を学ぶには、大量のトレーニングサンプルと重要なコンピュータリソースが必要である。
新しい特定のタスクを学習するためには、ジェネリックな教師の表現を学生ネットワークに転送することが重要な課題である。
本稿では,ニューロンの機能的視点に基づく表現間のメトリクスの利用を提案する。
最適輸送を用いて2つの表現間の一致を定量化し、深層ネットワークの表現に固有の不変性を埋め込む距離を導出する。
この距離は、生徒の表現と教師の表現の類似性を促進する正規化器を定義する。
このアプローチは、表現転送が適用可能な任意の学習コンテキストで使用できる。
そこで, 教師の表現を同一アーキテクチャの学生ネットワークに移し, 教師の表現を同一のタスクに移すインダクティブ・トランスファー・ラーニング (inductive transfer learning) と, 教師の表現をより単純なアーキテクチャの学生に同じタスク(モデル圧縮)に移すナレッジ・蒸留 ( knowledge distillation) の2つの標準設定で実験を行った。
また,本手法は,新たな学習課題の解決にも役立ち,教師の表現を直接,よりシンプルなアーキテクチャ学生に伝達する方法を示す。
関連論文リスト
- How a student becomes a teacher: learning and forgetting through
Spectral methods [1.1470070927586018]
理論MLでは、教師パラダイムは実生活の授業の効果的なメタファーとしてしばしば用いられる。
本研究では、根本的に異なる最適化スキームを提案することにより、飛躍的に前進する。
このフレームワークで作業することで、教師の真の複雑さを反映した安定した学生のサブ構造を分離できる。
論文 参考訳(メタデータ) (2023-10-19T09:40:30Z) - Improving Ensemble Distillation With Weight Averaging and Diversifying
Perturbation [22.87106703794863]
アンサンブル教師からの知識の蒸留を、より小さな学生ネットワークに動機付ける。
本研究では,複数作業を行う学生を対象に,アンサンブル教師の機能的多様性を吸収するウェイト平均化手法を提案する。
また,教師の多様性をよりよく生徒に伝達できるインプットを求める摂動戦略を提案する。
論文 参考訳(メタデータ) (2022-06-30T06:23:03Z) - Investigating the Properties of Neural Network Representations in
Reinforcement Learning [35.02223992335008]
本稿では,強化学習における伝達を支援する表現の特性を実証的に検討する。
我々は、画素ベースのナビゲーション環境において、補助的損失が異なる深層Q学習エージェントについて検討する。
そこで我々は,ある表現が転送に適する理由を,体系的なアプローチでよりよく理解する手法を開発した。
論文 参考訳(メタデータ) (2022-03-30T00:14:26Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - Network-Agnostic Knowledge Transfer for Medical Image Segmentation [2.25146058725705]
教師から学生ネットワークへのナレッジトランスファーアプローチを提案し、学生を独立したトランスファーデータセットでトレーニングします。
一つの教師からの知識伝達,知識伝達と微調整の組み合わせ,および複数の教師からの知識伝達について検討した。
提案アルゴリズムは知識伝達に有効であり、容易に調整できる。
論文 参考訳(メタデータ) (2021-01-23T19:06:14Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - CrossTransformers: spatially-aware few-shot transfer [92.33252608837947]
非常に少ないデータを持つ新しいタスクを考えると、現代の視覚システムは驚くほど急速に低下する。
現代の視覚システムを支えるニューラルネットワーク表現が、どのようにして監督の崩壊にさらされているかを示す。
そこで我々は,伝達を良くする汎用的な機能を促進するために,自己指導型学習を提案する。
論文 参考訳(メタデータ) (2020-07-22T15:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。