論文の概要: Model Compression Using Optimal Transport
- arxiv url: http://arxiv.org/abs/2012.03907v1
- Date: Mon, 7 Dec 2020 18:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:43:55.797192
- Title: Model Compression Using Optimal Transport
- Title(参考訳): 最適輸送を用いたモデル圧縮
- Authors: Suhas Lohit, Michael Jones
- Abstract要約: 学生ネットワークのトレーニングにおいて,輸送に基づく損失関数がいかに最適かを示す。
CIFAR-100,SVHN,ImageNetの画像分類結果について述べる。
- 参考スコア(独自算出の注目度): 7.365037992161795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model compression methods are important to allow for easier deployment of
deep learning models in compute, memory and energy-constrained environments
such as mobile phones. Knowledge distillation is a class of model compression
algorithm where knowledge from a large teacher network is transferred to a
smaller student network thereby improving the student's performance. In this
paper, we show how optimal transport-based loss functions can be used for
training a student network which encourages learning student network parameters
that help bring the distribution of student features closer to that of the
teacher features. We present image classification results on CIFAR-100, SVHN
and ImageNet and show that the proposed optimal transport loss functions
perform comparably to or better than other loss functions.
- Abstract(参考訳): モデル圧縮手法は、携帯電話のような計算、メモリ、エネルギー制約のある環境でのディープラーニングモデルの展開を容易にするために重要である。
知識蒸留はモデル圧縮アルゴリズムの一種であり、大きな教師ネットワークからの知識がより小さな学生ネットワークに転送され、生徒のパフォーマンスが向上する。
本稿では,学生のネットワークパラメータの学習を促す学習者ネットワークのトレーニングにおいて,学生の特徴の分布を教師の機能に近づけるための最適な移動型損失関数をいかに活用できるかを示す。
CIFAR-100, SVHN, ImageNetに画像分類結果を示し, 提案した最適輸送損失関数が他の損失関数と同等かそれ以上に機能することを示す。
関連論文リスト
- General Compression Framework for Efficient Transformer Object Tracking [26.42022701164278]
本稿では,効率的なトランスオブジェクト追跡のための汎用モデル圧縮フレームワークCompressTrackerを提案する。
本手法は,教師モデルのトランスフォーマー層を異なる段階に分割する新たな段階分割戦略を特徴とする。
当社のフレームワークであるCompressTrackerは構造的に非依存です。
論文 参考訳(メタデータ) (2024-09-26T06:27:15Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Towards a Smaller Student: Capacity Dynamic Distillation for Efficient
Image Retrieval [49.01637233471453]
従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量なネットワークを用いる。
本稿では,編集可能な表現能力を持つ学生モデルを構築するための容量動的蒸留フレームワークを提案する。
提案手法は,教師としてのResNet101を前提として,VeRi-776データセットなどの推論速度と精度が優れている。
論文 参考訳(メタデータ) (2023-03-16T11:09:22Z) - Feature-domain Adaptive Contrastive Distillation for Efficient Single
Image Super-Resolution [3.2453621806729234]
CNNベースのSISRは、多くのパラメータと高い計算コストを持ち、より良い性能を実現している。
知識蒸留(KD)は教師の有用な知識を学生に伝達する。
本稿では,軽量なSISRネットワークを効率的に訓練するための特徴領域適応型コントラスト蒸留(FACD)手法を提案する。
論文 参考訳(メタデータ) (2022-11-29T06:24:14Z) - Learning Knowledge Representation with Meta Knowledge Distillation for
Single Image Super-Resolution [82.89021683451432]
単一画像超解像課題に対する教師/学生アーキテクチャに基づくモデルに依存しないメタ知識蒸留法を提案する。
種々の単一画像超解像データセットを用いた実験により,提案手法は既存の知識表現関連蒸留法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-18T02:41:04Z) - Compact CNN Structure Learning by Knowledge Distillation [34.36242082055978]
知識蒸留とカスタマイズ可能なブロックワイズ最適化を活用し、軽量なCNN構造を学習するフレームワークを提案する。
提案手法は,予測精度の向上を図りながら,アートネットワーク圧縮の状態を再現する。
特に,すでにコンパクトなネットワークであるMobileNet_v2では,モデル圧縮が最大2倍,モデル圧縮が5.2倍向上する。
論文 参考訳(メタデータ) (2021-04-19T10:34:22Z) - Knowledge Distillation By Sparse Representation Matching [107.87219371697063]
本稿では,一方の畳み込みネットワーク(cnn)から他方へ,スパース表現を用いて中間知識を伝達するスパース表現マッチング(srm)を提案する。
勾配降下を利用して効率的に最適化し、任意のCNNにプラグアンドプレイで統合できるニューラルプロセッシングブロックとして定式化します。
実験の結果,教師と生徒のネットワーク間のアーキテクチャの違いに頑健であり,複数のデータセットにまたがる他のkd技術よりも優れていた。
論文 参考訳(メタデータ) (2021-03-31T11:47:47Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。