論文の概要: Better Supervisory Signals by Observing Learning Paths
- arxiv url: http://arxiv.org/abs/2203.02485v1
- Date: Fri, 4 Mar 2022 18:31:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:38:09.427482
- Title: Better Supervisory Signals by Observing Learning Paths
- Title(参考訳): 学習経路の観察によるより良い監督信号
- Authors: Yi Ren and Shangmin Guo and Danica J. Sutherland
- Abstract要約: 本稿では, ラベルスムース化と知識蒸留という2つの既存のラベル精錬法について, 提案基準の観点から解説する。
トレーニングサンプル毎に,学習経路,すなわちトレーニング中のモデル予測の軌跡を観察する。
モデルは、おもちゃと実際のデータセットの両方で発生する"zig-zag"学習パスを通じて、自発的に"bad"ラベルを洗練できる。
- 参考スコア(独自算出の注目度): 10.044413937134237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Better-supervised models might have better performance. In this paper, we
first clarify what makes for good supervision for a classification problem, and
then explain two existing label refining methods, label smoothing and knowledge
distillation, in terms of our proposed criterion. To further answer why and how
better supervision emerges, we observe the learning path, i.e., the trajectory
of the model's predictions during training, for each training sample. We find
that the model can spontaneously refine "bad" labels through a "zig-zag"
learning path, which occurs on both toy and real datasets. Observing the
learning path not only provides a new perspective for understanding knowledge
distillation, overfitting, and learning dynamics, but also reveals that the
supervisory signal of a teacher network can be very unstable near the best
points in training on real tasks. Inspired by this, we propose a new knowledge
distillation scheme, Filter-KD, which improves downstream classification
performance in various settings.
- Abstract(参考訳): 監督されたモデルの方がパフォーマンスが良いかもしれない。
本稿ではまず, 分類問題に対する適切な管理方法を明らかにするとともに, 既存のラベル精錬法, ラベル平滑化法, 知識蒸留法を, 提案基準の観点から解説する。
学習過程,すなわちトレーニング中のモデルの予測の軌跡を,トレーニングサンプル毎に観察する。
モデルは、おもちゃと実際のデータセットの両方で発生する"zig-zag"学習パスを通じて、自発的に"bad"ラベルを洗練できる。
学習経路の観察は、知識の蒸留、過剰な適合、学習のダイナミクスを理解するための新たな視点を提供するだけでなく、教師ネットワークの監視信号が実際のタスクのトレーニングにおける最善の点近くで非常に不安定であることも示します。
そこで,本研究では,様々な条件下で下流分類性能を向上させる新しい知識蒸留法であるフィルタkdを提案する。
関連論文リスト
- One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Weaker Than You Think: A Critical Look at Weakly Supervised Learning [30.160501243686863]
弱い教師付き学習は、低リソース環境で機械学習モデルをトレーニングするための一般的なアプローチである。
多様なNLPデータセットとタスクを分析し、弱教師付きアプローチがいつ、なぜ機能するのかを確認する。
論文 参考訳(メタデータ) (2023-05-27T10:46:50Z) - MDFlow: Unsupervised Optical Flow Learning by Reliable Mutual Knowledge
Distillation [12.249680550252327]
現在のアプローチでは、継続的な自己スーパービジョンの強化正則化項が課せられている。
本稿では,教師と学生のネットワーク間で信頼ある知識を相互に伝達する新たな相互蒸留フレームワークを提案する。
我々のアプローチはMDFlowと呼ばれ、挑戦的なベンチマーク上で最先端のリアルタイム精度と一般化能力を実現する。
論文 参考訳(メタデータ) (2022-11-11T05:56:46Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Learning by Distillation: A Self-Supervised Learning Framework for
Optical Flow Estimation [71.76008290101214]
DistillFlowは光の流れを学ぶための知識蒸留手法である。
KITTIとSintelの両方のデータセット上で、最先端の教師なし学習性能を実現する。
我々のモデルは、KITTI 2015ベンチマークにおけるすべての単分子的手法の中で、第1位にランクされ、Sintel Finalベンチマークで発表されたすべてのメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-06-08T09:13:34Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Unsupervised Class-Incremental Learning Through Confusion [0.4604003661048266]
入ってくるデータを新しいクラスとして訓練することによるネットワークの混乱を生かした新規性検出手法を提案する。
この検出方法中にクラスアンバランスを組み込むことで、パフォーマンスが大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-04-09T15:58:43Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。