論文の概要: Distill on the Go: Online knowledge distillation in self-supervised
learning
- arxiv url: http://arxiv.org/abs/2104.09866v1
- Date: Tue, 20 Apr 2021 09:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 20:50:50.080856
- Title: Distill on the Go: Online knowledge distillation in self-supervised
learning
- Title(参考訳): goの蒸留: 自己監督学習におけるオンライン知識蒸留
- Authors: Prashant Bhat, Elahe Arani, and Bahram Zonooz
- Abstract要約: 最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning solves pretext prediction tasks that do not require
annotations to learn feature representations. For vision tasks, pretext tasks
such as predicting rotation, solving jigsaw are solely created from the input
data. Yet, predicting this known information helps in learning representations
useful for downstream tasks. However, recent works have shown that wider and
deeper models benefit more from self-supervised learning than smaller models.
To address the issue of self-supervised pre-training of smaller models, we
propose Distill-on-the-Go (DoGo), a self-supervised learning paradigm using
single-stage online knowledge distillation to improve the representation
quality of the smaller models. We employ deep mutual learning strategy in which
two models collaboratively learn from each other to improve one another.
Specifically, each model is trained using self-supervised learning along with
distillation that aligns each model's softmax probabilities of similarity
scores with that of the peer model. We conduct extensive experiments on
multiple benchmark datasets, learning objectives, and architectures to
demonstrate the potential of our proposed method. Our results show significant
performance gain in the presence of noisy and limited labels and generalization
to out-of-distribution data.
- Abstract(参考訳): 自己教師付き学習は、特徴表現を学ぶのにアノテーションを必要としないプレテキスト予測タスクを解決する。
視覚タスクでは、入力データから回転の予測やジグソーの解法などのプレテキストタスクが生成される。
しかし、この既知の情報を予測することは、下流タスクに役立つ表現を学ぶのに役立つ。
しかし、近年の研究では、より広範で深いモデルは、より小さなモデルよりも自己監督学習の恩恵を受けることが示された。
小型モデルの自己教師型事前学習の問題に対処するため,単段階オンライン知識蒸留を用いた自己教師型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
2つのモデルが互いに協調して学習し,相互改善を図る,深い相互学習戦略を採用している。
具体的には、各モデルの類似度スコアのソフトマックス確率をピアモデルと一致させる蒸留とともに、自己教師付き学習を用いて各モデルを訓練する。
提案手法の可能性を実証するために,複数のベンチマークデータセット,学習目標,アーキテクチャについて広範な実験を行った。
以上の結果から,ノイズラベルや制限ラベルの存在,分散データへの一般化などにおいて,高い性能向上が得られた。
関連論文リスト
- Machine Unlearning in Contrastive Learning [3.6218162133579694]
本稿では,機械学習を効果的に行うためのモデルトレーニングのための,勾配制約に基づく新しいアプローチを提案する。
提案手法は,コントラスト学習モデルだけでなく,教師付き学習モデルにも有能な性能を示す。
論文 参考訳(メタデータ) (2024-05-12T16:09:01Z) - An Information Theoretic Approach to Machine Unlearning [45.600917449314444]
学びの鍵となる課題は、モデルのパフォーマンスを保ちながら、必要なデータをタイムリーに忘れることである。
この研究では、ゼロショットのアンラーニングシナリオに対処し、未学習のアルゴリズムは、トレーニングされたモデルと忘れられるデータだけが与えられたデータを削除できなければならない。
モデルの幾何に基づいて、単純だが原則化されたゼロショットアンラーニング法を導出する。
論文 参考訳(メタデータ) (2024-02-02T13:33:30Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Learning by Distillation: A Self-Supervised Learning Framework for
Optical Flow Estimation [71.76008290101214]
DistillFlowは光の流れを学ぶための知識蒸留手法である。
KITTIとSintelの両方のデータセット上で、最先端の教師なし学習性能を実現する。
我々のモデルは、KITTI 2015ベンチマークにおけるすべての単分子的手法の中で、第1位にランクされ、Sintel Finalベンチマークで発表されたすべてのメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-06-08T09:13:34Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。