論文の概要: SEED: Self-supervised Distillation For Visual Representation
- arxiv url: http://arxiv.org/abs/2101.04731v1
- Date: Tue, 12 Jan 2021 20:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 05:01:10.092170
- Title: SEED: Self-supervised Distillation For Visual Representation
- Title(参考訳): SEED:視覚表現のための自己教師型蒸留
- Authors: Zhiyuan Fang, Jianfeng Wang, Lijuan Wang, Lei Zhang, Yezhou Yang,
Zicheng Liu
- Abstract要約: SEED(Self-SupErvised Distillation)と呼ばれる新しい学習パラダイムを提案し、自己監督的な方法でその表現的知識を小さなアーキテクチャ(学生)に転送します。
私達はSEEDが下流の仕事の小さいネットワークの性能を劇的に高めることを示します。
- 参考スコア(独自算出の注目度): 34.63488756535054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is concerned with self-supervised learning for small models. The
problem is motivated by our empirical studies that while the widely used
contrastive self-supervised learning method has shown great progress on large
model training, it does not work well for small models. To address this
problem, we propose a new learning paradigm, named SElf-SupErvised Distillation
(SEED), where we leverage a larger network (as Teacher) to transfer its
representational knowledge into a smaller architecture (as Student) in a
self-supervised fashion. Instead of directly learning from unlabeled data, we
train a student encoder to mimic the similarity score distribution inferred by
a teacher over a set of instances. We show that SEED dramatically boosts the
performance of small networks on downstream tasks. Compared with
self-supervised baselines, SEED improves the top-1 accuracy from 42.2% to 67.6%
on EfficientNet-B0 and from 36.3% to 68.2% on MobileNet-v3-Large on the
ImageNet-1k dataset.
- Abstract(参考訳): 本稿では,小型モデルの自己教師型学習について述べる。
この問題は,広範に使用されているコントラスト型自己教師付き学習手法が大規模モデルトレーニングにおいて大きな進歩を遂げているが,小モデルではうまく機能しないという経験的研究が動機である。
この問題に対処するため,我々はSelf-SupErvised Distillation (SEED)という新たな学習パラダイムを提案し,より大規模なネットワーク(教師として)を利用して,表現的知識をより小さなアーキテクチャ(学生として)に自己管理的に伝達する。
ラベルのないデータから直接学習する代わりに、教師が一連のインスタンスに対して推定する類似度スコア分布を模倣するように学生エンコーダを訓練する。
シードはダウンストリームタスクにおける小さなネットワークのパフォーマンスを劇的に向上させる。
自己監督ベースラインと比較して、SEEDはトップ1の精度を、EfficientNet-B0で42.2%から67.6%、ImageNet-1kデータセットでMobileNet-v3-Largeで36.3%から68.2%に改善している。
関連論文リスト
- Retro: Reusing teacher projection head for efficient embedding distillation on Lightweight Models via Self-supervised Learning [0.0]
本研究では,教師のプロジェクションヘッドを学生に再利用するtextscRetroを提案する。
実験結果から, 軽量モデルにおける最先端モデルに対して, 大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-05-24T07:53:09Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - Establishing a stronger baseline for lightweight contrastive models [10.63129923292905]
最近の研究は、特別に設計された効率的なネットワークのための自己指導型コントラスト学習の性能劣化を報告している。
一般的な実践は、事前訓練された対照的な教師モデルを導入し、教師が生成した蒸留信号で軽量ネットワークを訓練することである。
本研究では,教師モデルの事前学習を使わずに,軽量コントラストモデルのための強力なベースラインを確立することを目的とする。
論文 参考訳(メタデータ) (2022-12-14T11:20:24Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - DisCo: Remedy Self-supervised Learning on Lightweight Models with
Distilled Contrastive Learning [94.89221799550593]
SSL(Self-supervised representation Learning)はコミュニティから広く注目を集めている。
最近の研究では、モデルサイズが小さくなれば、その性能は低下すると主張している。
単純かつ効果的な蒸留コントラスト学習(DisCo)を提案し、問題を大きなマージンで緩和します。
論文 参考訳(メタデータ) (2021-04-19T08:22:52Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - CompRess: Self-Supervised Learning by Compressing Representations [14.739041141948032]
我々は、既に学んだ、深い自己教師付きモデル(教師)をより小さなモデル(学生)に圧縮するモデル圧縮法を開発した。
教師の埋め込み空間におけるデータポイント間の相対的類似性を模倣するように、学生モデルを訓練する。
ImageNet分類において、自己監督型AlexNetが教師型AlexNetを上回ったのはこれが初めてである。
論文 参考訳(メタデータ) (2020-10-28T02:49:18Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。
教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。
副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-05-20T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。