論文の概要: Knowledge distillation: A good teacher is patient and consistent
- arxiv url: http://arxiv.org/abs/2106.05237v1
- Date: Wed, 9 Jun 2021 17:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:31:14.615445
- Title: Knowledge distillation: A good teacher is patient and consistent
- Title(参考訳): 知識蒸留:良い先生は忍耐強く一貫性がある
- Authors: Lucas Beyer, Xiaohua Zhai, Am\'elie Royer, Larisa Markeeva, Rohan
Anil, Alexander Kolesnikov
- Abstract要約: 最先端のパフォーマンスを実現する大規模モデルと、実用的な用途で手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
蒸留の有効性に大きな影響を及ぼす可能性のある,特定の暗黙的な設計選択を同定する。
ImageNetの最先端ResNet-50モデルが82.8%の精度で実現されている。
- 参考スコア(独自算出の注目度): 71.14922743774864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing discrepancy in computer vision between large-scale models
that achieve state-of-the-art performance and models that are affordable in
practical applications. In this paper we address this issue and significantly
bridge the gap between these two types of models. Throughout our empirical
investigation we do not aim to necessarily propose a new method, but strive to
identify a robust and effective recipe for making state-of-the-art large scale
models affordable in practice. We demonstrate that, when performed correctly,
knowledge distillation can be a powerful tool for reducing the size of large
models without compromising their performance. In particular, we uncover that
there are certain implicit design choices, which may drastically affect the
effectiveness of distillation. Our key contribution is the explicit
identification of these design choices, which were not previously articulated
in the literature. We back up our findings by a comprehensive empirical study,
demonstrate compelling results on a wide range of vision datasets and, in
particular, obtain a state-of-the-art ResNet-50 model for ImageNet, which
achieves 82.8\% top-1 accuracy.
- Abstract(参考訳): 最先端のパフォーマンスを実現する大規模モデルと実用的なアプリケーションで手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
本稿では,この問題に対処し,これらの2種類のモデル間のギャップを著しく橋渡しする。
経験的調査を通じて,我々は必ずしも新しい手法を提案するのではなく,最先端の大規模モデルを実用的に手頃な価格で提供するための,堅牢で効果的なレシピの特定に努めている。
我々は, 知識蒸留を正しく行うと, 大規模モデルのサイズを減少させる強力なツールとなり, その性能を損なうことなく実現できることを実証する。
特に,蒸留の有効性に大きな影響を与える暗黙的な設計選択があることが明らかになった。
私たちの重要な貢献は、これらのデザインの選択を明示的に識別することです。
我々は、包括的実証研究により、幅広いビジョンデータセットに関する説得力のある結果を実証し、特にImageNetの最先端のResNet-50モデルを入手し、82.8\%のトップ1精度を実現した。
関連論文リスト
- Distill-then-prune: An Efficient Compression Framework for Real-time Stereo Matching Network on Edge Devices [5.696239274365031]
本稿では, 知識蒸留とモデルプルーニングを取り入れて, 速度と精度のトレードオフを克服し, 新たな戦略を提案する。
エッジデバイスに高い精度を提供しながら、リアルタイム性能を維持するモデルを得た。
論文 参考訳(メタデータ) (2024-05-20T06:03:55Z) - On the Surprising Efficacy of Distillation as an Alternative to Pre-Training Small Models [7.062887337934677]
我々は、小モデルがその利点を享受するために事前学習のコストを吸収する必要がないことを提案する。
事前訓練されたモデルからタスクを蒸留すると、そのタスクで事前訓練されたり微調整されたりした場合、小さなモデルで達成される性能を達成または超えることが観察された。
論文 参考訳(メタデータ) (2024-04-04T07:38:11Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - The Quest of Finding the Antidote to Sparse Double Descent [1.336445018915526]
モデルの幅が大きくなると、まず性能が悪化し、その後改善され、最終的に劣化する。
このような単調な振る舞いは、高性能を維持するために最適なモデルのサイズについて深刻な疑問を提起する。
単純な$ell$正規化法は、この現象を緩和するのに役立つが、性能/疎結合性を犠牲にする。
論文 参考訳(メタデータ) (2023-08-31T09:56:40Z) - Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models [103.04711721343278]
クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。
本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-26T15:00:42Z) - Self-attention Presents Low-dimensional Knowledge Graph Embeddings for
Link Prediction [6.789370732159177]
セルフアテンションは、エンティティとリレーションにクエリ依存のプロジェクションを適用するための鍵である。
我々のモデルは、最新の3つの最先端の競合製品よりも好意的に、あるいは優れたパフォーマンスを達成しています。
論文 参考訳(メタデータ) (2021-12-20T16:11:01Z) - When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文 参考訳(メタデータ) (2021-10-19T22:56:49Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。