Fugu-MT 論文翻訳(概要): Prune Your Model Before Distill It

論文の概要: Prune Your Model Before Distill It

arxiv url: http://arxiv.org/abs/2109.14960v1
Date: Thu, 30 Sep 2021 09:46:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-01 14:47:14.586140
Title: Prune Your Model Before Distill It
Title（参考訳）: 蒸留する前にモデルを刈り取る
Authors: Jinhyuk Park, Albert No
Abstract要約: 我々は、非構造化プルーニングから効率的なアーキテクチャを持つネットワークへ知識を伝達することを検討する。我々は,未熟教師の学習よりも,未熟教師の学習の方が効果的であることを観察する。
参考スコア（独自算出の注目度）: 4.162663632560141
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unstructured pruning reduces a significant amount of weights of neural networks. However, unstructured pruning provides a sparse network with the same network architecture as the original network. On the other hand, structured pruning provides an efficient network architecture by removing channels, but the parameter reduction is not significant. In this paper, we consider transferring knowledge from unstructured pruning to a network with efficient architecture (with fewer channels). In particular, we apply the knowledge distillation (KD), where the teacher network is a sparse network (obtained from unstructured pruning), and the student network has an efficient architecture. We observe that learning from the pruned teacher is more effective than learning from the unpruned teacher. We further achieve the promising experimental results that unstructured pruning can improve the performance of knowledge distillation in general.
Abstract（参考訳）: 非構造化プルーニングは、ニューラルネットワークのかなりの重量を減らす。しかし、非構造化プルーニングは、元のネットワークと同じネットワークアーキテクチャを持つスパースネットワークを提供する。一方で、構造化プルーニングはチャネルを削除することで効率的なネットワークアーキテクチャを提供するが、パラメータの削減は重要ではない。本稿では,非構造化プルーニングから効率的なアーキテクチャ(チャネルが少ない)のネットワークへ知識を伝達することを検討する。特に,教師ネットワークがスパースネットワーク(非構造化プルーニングを含まない)であり,学生ネットワークが効率的なアーキテクチャを持つ知識蒸留(kd)を適用する。我々は,未熟教師の学習よりも,未熟教師の学習の方が効果的であることを観察する。さらに,非構造化プルーニングが一般の知識蒸留の性能を向上させる有望な実験結果を得る。

関連論文リスト

Structurally Prune Anything: Any Architecture, Any Framework, Any Time [84.6210631783801]
ニューラルネットワークのための汎用的な構造化プルーニングフレームワークであるStructurely Prune Anything (SPA)を紹介した。 SPAは、トレーニング前、微調整後のトレーニング後、または微調整なしでのトレーニング後、いつでもプランニングをサポートする。大規模な実験では、SPAは様々なアーキテクチャで最先端のプルーニング性能と競合することを示した。
論文参考訳（メタデータ） (2024-03-03T13:49:49Z)
Network Pruning Spaces [12.692532576302426]
ウェイトプルーニングやフィルタプルーニングなどのネットワークプルーニング技術により、ほとんどの最先端のニューラルネットワークは、大幅な性能低下なしに加速できることが明らかになった。この研究は、市販のディープラーニングライブラリやハードウェアで推論を高速化するフィルタプルーニングに焦点を当てている。
論文参考訳（メタデータ） (2023-04-19T06:52:05Z)
Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。 SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-10-23T18:37:22Z)
Learning Pruned Structure and Weights Simultaneously from Scratch: an Attention based Approach [4.284071491453377]
我々は、新しい非構造化プルーニングパイプライン、注意に基づく同時スパース構造と重み学習(ASWL)を提案する。 ASWLは, 各層毎の層単位でのプルーニング比を計算する効率的なアルゴリズムを提案し, 密集ネットワークとスパースネットワークの重みをランダムな重みから同時に学習するように追従する。 MNIST, Cifar10, ImageNet を用いた実験により, ASWL は精度, プルーニング率, 運転効率の点で, 優れたプルーニング結果が得られることが示された。
論文参考訳（メタデータ） (2021-11-01T02:27:44Z)
Convolutional Neural Network Pruning with Structural Redundancy Reduction [11.381864384054824]
構造的冗長性は重要でないフィルタを見つけるよりも重要な役割を担っていると我々は主張する。本研究では,CNNの構造冗長性を同定し,選択層内のプルーンフィルタを最も冗長性の高いネットワークプルーニング手法を提案する。
論文参考訳（メタデータ） (2021-04-08T00:16:24Z)
Firefly Neural Architecture Descent: a General Approach for Growing Neural Networks [50.684661759340145]
firefly neural architecture descentは、ニューラルネットワークを漸進的かつ動的に成長させるための一般的なフレームワークである。ホタルの降下は、より広く、より深くネットワークを柔軟に成長させ、正確だがリソース効率のよいニューラルアーキテクチャを学習するために応用できることを示す。特に、サイズは小さいが、最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。
論文参考訳（メタデータ） (2021-02-17T04:47:18Z)
Structured Convolutions for Efficient Neural Network Design [65.36569572213027]
畳み込みニューラルネットワーク構築ブロックのテクスト単純構造における冗長性を利用してモデル効率に取り組む。この分解が2Dカーネルや3Dカーネルだけでなく、完全に接続されたレイヤにも適用可能であることを示す。
論文参考訳（メタデータ） (2020-08-06T04:38:38Z)
Growing Efficient Deep Networks by Structured Continuous Sparsification [34.7523496790944]
私たちは、トレーニングの過程でディープネットワークアーキテクチャを成長させるアプローチを開発します。我々の手法は、小さくてシンプルなシードアーキテクチャから始まり、動的に成長し、層とフィルタの両方を熟成することができる。 ImageNetのベースラインであるResNet-50と比較すると、推論FLOPは49.7%、トレーニングFLOPは47.4%である。
論文参考訳（メタデータ） (2020-07-30T10:03:47Z)
Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文参考訳（メタデータ） (2020-03-23T08:05:41Z)
Knapsack Pruning with Inner Distillation [11.04321604965426]
そこで本研究では,プルーンドネットワークの最終精度を最適化する新しいプルーニング手法を提案する。ネットワークの高レベル構造を維持しながら、ネットワークチャネルを熟考する。提案手法は,ResNetバックボーンを用いたImageNet,CIFAR-10,CIFAR-100における最先端のプルーニング結果をもたらす。
論文参考訳（メタデータ） (2020-02-19T16:04:48Z)
A "Network Pruning Network" Approach to Deep Model Compression [62.68120664998911]
マルチタスクネットワークを用いた深部モデル圧縮のためのフィルタプルーニング手法を提案する。我々のアプローチは、プレナーネットワークを学習して、事前訓練されたターゲットネットワークを訓練することに基づいている。提案手法によって生成された圧縮モデルは汎用的であり,特別なハードウェア/ソフトウェアのサポートは不要である。
論文参考訳（メタデータ） (2020-01-15T20:38:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。