論文の概要、ライセンス

# (参考訳) ニューラルネットワーク圧縮のためのランダムチャネルプルーニングの再検討 [全文訳有]

Revisiting Random Channel Pruning for Neural Network Compression ( http://arxiv.org/abs/2205.05676v1 )

ライセンス: CC BY 4.0
Yawei Li, Kamil Adamczewski, Wen Li, Shuhang Gu, Radu Timofte, Luc Van Gool(参考訳) チャネル(または3Dフィルタ)プルーニングは、ニューラルネットワークの推論を加速する有効な方法である。 この現実的な問題を解決するアルゴリズムが急増しており、それぞれが何らかの方法で効果的であると主張されている。 しかし、アルゴリズムを直接比較するベンチマークは不足しており、主にアルゴリズムの複雑さと、特定のネットワーク構成やトレーニング手順のようなカスタム設定のためである。 チャネルプルーニングのさらなる発展には,公正なベンチマークが重要である。 一方、最近の研究では、プルーニングアルゴリズムによって発見されたチャネル構成は、事前訓練された重み付けと同じくらい重要であることが示されている。 これにより、チャネルプルーニングは新しい役割、すなわち最適なチャネル構成を探索する。 本稿では,ランダムな探索により,プルーンドモデルのチャネル構成を決定することを試みる。 提案手法は,異なる手法,すなわちランダムプルーニングと比較してどのように振る舞うかを比較する新しい方法を提供する。 この単純な戦略は他のチャネルプルーニング手法と比較して非常にうまく機能することを示す。 また,この条件下では,異なるチャネル重要度評価手法に驚くほど明確な勝者は存在せず,その研究成果を先進的なチャネル構成探索手法に傾けることができることを示した。

Channel (or 3D filter) pruning serves as an effective way to accelerate the inference of neural networks. There has been a flurry of algorithms that try to solve this practical problem, each being claimed effective in some ways. Yet, a benchmark to compare those algorithms directly is lacking, mainly due to the complexity of the algorithms and some custom settings such as the particular network configuration or training procedure. A fair benchmark is important for the further development of channel pruning. Meanwhile, recent investigations reveal that the channel configurations discovered by pruning algorithms are at least as important as the pre-trained weights. This gives channel pruning a new role, namely searching the optimal channel configuration. In this paper, we try to determine the channel configuration of the pruned models by random search. The proposed approach provides a new way to compare different methods, namely how well they behave compared with random pruning. We show that this simple strategy works quite well compared with other channel pruning methods. We also show that under this setting, there are surprisingly no clear winners among different channel importance evaluation methods, which then may tilt the research efforts into advanced channel configuration searching methods.
公開日: Wed, 11 May 2022 17:59:04 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Revisiting Random Channel Pruning for Neural Network Compression ニューラルネットワーク圧縮のためのランダムチャネルプルーニングの再検討 0.68
Yawei Li1 Kamil Adamczewski2 Wen Li3 Yawei Li1 Kamil Adamczewski2 Wen Li3 0.41
Shuhang Gu4 Radu Timofte1 シュハング4 ラドゥ・ティモフテ1 0.46
Luc Van Gool1,5 Luc Van Gool1,5 0.34
1Computer Vision Lab, ETH Z¨urich 1Computer Vision Lab, ETH Z ジュリッヒ 0.81
2MPI-IS 3UESTC 4USYD 5KU Leuven 2MPI-IS 3UESTC 4USYD 5KU Leuven 0.30
{yawei.li, radu.timofte, vangool}@vision.ee.ethz.ch dadu.timofte, vangool}@vision.ee.ethz.ch 0.32
Abstract Channel (or 3D filter) pruning serves as an effective way to accelerate the inference of neural networks. 概要 チャネル(または3Dフィルタ)プルーニングは、ニューラルネットワークの推論を加速する有効な方法である。 0.58
There has been a flurry of algorithms that try to solve this practical problem, each being claimed effective in some ways. この現実的な問題を解決するアルゴリズムが急増しており、それぞれが何らかの方法で効果的であると主張されている。 0.64
Yet, a benchmark to compare those algorithms directly is lacking, mainly due to the complexity of the algorithms and some custom settings such as the particular network configuration or training procedure. しかし、アルゴリズムを直接比較するベンチマークは不足しており、主にアルゴリズムの複雑さと、特定のネットワーク構成やトレーニング手順のようなカスタム設定のためである。 0.70
A fair benchmark is important for the further development of channel pruning. チャネルプルーニングのさらなる発展には,公正なベンチマークが重要である。 0.63
Meanwhile, recent investigations reveal that the channel configurations discovered by pruning algorithms are at least as important as the pre-trained weights. 一方、最近の研究では、プルーニングアルゴリズムによって発見されたチャネル構成は、事前訓練された重み付けと同じくらい重要であることが示されている。
訳抜け防止モード: 一方 最近の調査では プルーニングアルゴリズムによって発見されたチャネル構成は、少なくとも事前訓練された重み付けと同じくらい重要である。
0.62
This gives channel pruning a new role, namely searching the optimal channel configuration. これにより、チャネルプルーニングは新しい役割、すなわち最適なチャネル構成を探索する。 0.73
In this paper, we try to determine the channel configuration of the pruned models by random search. 本稿では,ランダムな探索により,プルーンドモデルのチャネル構成を決定することを試みる。 0.83
The proposed approach provides a new way to compare different methods, namely how well they behave compared with random pruning. 提案手法は,異なる手法,すなわちランダムプルーニングと比較してどのように振る舞うかを比較する新しい方法を提供する。 0.75
We show that this simple strategy works quite well compared with other channel pruning methods. この単純な戦略は他のチャネルプルーニング手法と比較して非常にうまく機能することを示す。 0.68
We also show that under this setting, there are surprisingly no clear winners among different channel importance evaluation methods, which then may tilt the research efforts into advanced channel configuration searching methods. また,この条件下では,異なるチャネル重要度評価手法に驚くほど明確な勝者は存在せず,その研究成果を先進的なチャネル構成探索手法に傾けることができることを示した。 0.72
Code will be released at https: //github.com/ofsound of/random_channel_ pruning. コードはhttps: //github.com/ofsound of/random_ channel_ pruningでリリースされる。 0.49
1. Introduction tention to, i.e. random channel pruning. はじめに 保持する、すなわちランダムチャネルプルーニング。 0.44
By random pruning, we mean that the pruning ratio of each layer is randomly selected and the channels to be pruned within the layer are determined by some criterion. ランダムプルーニングにより、各層のプルーニング比がランダムに選択され、その層内でプルーニングされるチャネルが基準によって決定されることを意味する。 0.75
Random pruning is frequently referred as a baseline to show the improvements of the state-of-the-art channel pruning methods [11, 12, 36, 40, 43, 48, 50, 62, 65]. ランダムプルーニングはしばしば、最先端のチャネルプルーニング手法(11, 12, 36, 40, 43, 48, 50, 62, 65]の改善を示すベースラインと呼ばれる。 0.65
Yet, the power of random pruning is not fully released. しかし、ランダムな刈り取りの力は完全には解放されない。 0.65
By the rigorous study in this paper, we have several striking findings as follows. 本稿では,本論文の厳密な研究により,以下の知見を得た。 0.70
F1 When brought to the same setting under random pruning, the recent proposed channel pruning criteria [19, 37, 45, 50] performs just comparable with the simple L1 and L2 norm based pruning criteria. F1 ランダムプルーニングの下で同じ設定にすると、最近提案されたチャネルプルーニング基準 [19, 37, 45, 50] は、単純なL1およびL2ノルムベースプルーニング基準と同等に動作する。 0.76
F2 Compared with channel pruning algorithms that start with a pre-trained model [9, 17–19, 23, 38–40, 46, 61, 67] (See results in Table 3), random pruning can find a pruned model with comparable or even superior performances. f2 事前学習されたモデル [9, 17–19, 23 38–40, 46, 61, 67] から始まるチャネルプルーニングアルゴリズムと比較すると、ランダムプルーニングは、同等あるいはそれ以上の性能を持つプルーニングモデルを見つけることができる。 0.77
F3 Even compared with advanced pruning methods that optimize the overall network architecture such placement of pooling layers [41] and expansion of available network width [58], random pruning still narrows the performance gap (less than 0.5% on ImageNet classification). F3 プール層[41]の配置や利用可能なネットワーク幅[58]の拡張といったネットワークアーキテクチャ全体を最適化する高度なプルーニング手法と比較しても、ランダムプルーニングはパフォーマンスギャップを狭めている(ImageNet 分類では 0.5% 未満)。 0.76
F4 Fine-tuning epochs has a strong influence on the performance of the pruned network. F4ファインチューニングエポックは,プルーニングネットワークの性能に強い影響を与える。 0.74
High-performing pruned networks usually comes with prolonged finetuning epochs. 高性能プルーニングネットワークは通常、長い微調整エポックが伴う。 0.59
Since the advent of deep learning based computer vision solutions, network compression has been at the core of reducing the computational complexity of neural networks, accelerating their inference, and enabling their deployment on resource constrained devices [20,21,30,32,42,56,57 ,64, 66]. ディープラーニングベースのコンピュータビジョンソリューションの登場以来、ネットワーク圧縮は、ニューラルネットワークの計算複雑性を減らし、推論を加速し、リソース制約されたデバイス [20,21,30,32,42,56,57 ,64,66] への展開を可能にする中核にある。 0.68
Channel pruning (or structured pruning, filter pruning) is one of the approaches that can achieve the acceleration of convolutional neural networks (CNNs) [10, 18, 31, 33, 41]. チャネルプルーニング(または構造化プルーニング、フィルタプルーニング)は、畳み込みニューラルネットワーク(CNN) [10, 18, 31, 33, 41] の加速を実現するアプローチの1つである。 0.67
The goal of this paper is to conduct an empirical study on channel pruning procedure that is not paid enough at- 本稿の目的は, 未払いのチャネル刈り込み手順について, 実証的な検討を行うことである。 0.68
Those findings lead to several implications. これらの発見にはいくつかの意味がある。 0.35
First of all, considering F1, since L1/L2 based channel pruning could perform as well as the other pruning criteria, by the law of Occam’s razor, most of the cases, the simple L1 and L2 based pruning criteria can just serve the purpose of channel pruning. まず第一に、L1/L2ベースのチャネルプルーニングは、Occamのカミソリの法則によって、他のプルーニング基準と同様に機能する可能性があるので、ほとんどの場合、単純なL1およびL2ベースのプルーニング基準は、チャネルプルーニングの目的にのみ役立つ。 0.70
Secondly, combining F2 and F3, random pruning as a neutral baseline, reveals the fundamental development in the field of network pruning. 第二に、F2 と F3 を組み合わせて、ランダムプルーニングを中立なベースラインとし、ネットワークプルーニングの分野における基本的発展を明らかにする。 0.64
For algorithms that rely on the predefined network architecture and pre-trained network weight, we haven’t gone far 事前に定義されたネットワークアーキテクチャと事前訓練されたネットワークウェイトに依存するアルゴリズムについては、まだ遠くない。 0.64
1 1 0.43
英語(論文から抽出)日本語訳スコア
since the advent of network pruning. ネットワーク・プルーニングの出現以来です 0.51
Beyond that, overall network architecture optimization brings additional benefits. さらに、ネットワークアーキテクチャ全体の最適化は、さらなるメリットをもたらします。 0.64
The performance difference of most methods fall into a narrow range of 1%, which is close to the performance of the original network. ほとんどの方法のパフォーマンスの差は1%という狭い範囲に落ちており、これは元のネットワークのパフォーマンスに近い。 0.73
This on the one hand shows the characteristic of channel pruning, i.e. the performance of the channel pruned network is upper bounded by the original network 1. これは、チャネルプルーニングの特性、すなわち、チャネルプルーニングネットワークの性能が元のネットワーク1によって上界されていることを示す。 0.75
On the other hand, it shows the difficulty of the problem, i.e. every small improvement comes with huge efforts (mostly computation). 一方、これは問題の難しさ、すなわち、すべての小さな改善には大きな努力(主に計算)が伴うことを示している。 0.78
Thirdly, considering F4, for a fair comparison and a long-lasting development of the field, fine-tuning epoch should be standardized. 第3に、f4を公平に比較し、フィールドの長期的発展を考えると、微調整時代の標準化が必要である。 0.63
We encourage researchers in this field to explain in detail the training and fine-tuning protocol especially the number of epochs. 我々はこの分野の研究者に、特にエポック数のトレーニングおよび微調整プロトコルの詳細を説明するよう勧める。 0.79
As such, computational cost could be kept in mind for both researchers and industrial practitioners. したがって、計算コストは研究者と工業従事者の両方に念頭に置いておくことができる。 0.65
The discussion above leads to the unique role that random pruning could play in channel pruning, i.e. serving as a baseline to benchmark different channel pruning methods [5]. 上記の議論は、チャネルのプルーニングにおいてランダムなプルーニングが果たすユニークな役割、すなわち異なるチャネルのプルーニングメソッドをベンチマークするためのベースラインとして機能する[5]。 0.69
On the one hand, random channel pruning could bring different pruning criteria under the same regime. 一方、ランダムチャネルの刈り取りは、同一体制下で異なる刈り取り基準をもたらす可能性がある。 0.66
As such, the different channel importance estimation methods becomes a meta component which is fit to work with the existing methods. このように、異なるチャネル重要度推定メソッドは、既存のメソッドに適合するメタコンポーネントとなる。 0.65
On the other hand, random pruning can become a baseline for other algorithms. 一方、ランダムプルーニングは他のアルゴリズムのベースラインとなることができる。 0.68
Since the performance of channel pruning algorithms can be influenced by a couple of factors especially the fine-tuning procedure, decoupling the influential factors and neutrally showing costs and benefits helps creating clarity. チャネルプルーニングアルゴリズムの性能は、特に微調整手順の2つの要因に影響される可能性があるため、影響要因を分離し、コストと利益を中立的に示すことが明確化に寄与する。 0.66
Random channel pruning also simplifies the pruning algorithm. ランダムチャネルプルーニングは、プルーニングアルゴリズムを単純化する。 0.59
Instead of resorting to sophisticated algorithms such as reinforcement learning [18], evolutionary algorithms [41], and proximal gradient descent [31], channel pruning can be simplified to randomly sampling a pool of sub-networks and selecting the best from them. 強化学習[18]、進化アルゴリズム[41]、近位勾配降下[31]といった高度なアルゴリズムに頼る代わりに、チャネルプルーニングを単純化して、サブネットワークのプールをランダムにサンプリングし、それらからベストを選択することができる。 0.73
In this paper, random pruning is studied in two settings. 本稿では,ランダムプルーニングを2つの設定で検討する。 0.65
In the first setting, the task is to prune a pre-trained network. 最初の設定では、事前訓練されたネットワークをプルーピングする。 0.75
In the second setting, a pre-trained network is not needed and the pruning algorithm starts with a randomly initialized network. 第2設定では、事前訓練されたネットワークは不要であり、プルーニングアルゴリズムはランダムに初期化されたネットワークから始まる。
訳抜け防止モード: 第2設定。 事前訓練されたネットワークは必要ない プルーニングアルゴリズムは ランダムに初期化されたネットワークから始まります
0.84
The problem is formulated as an architecture search problem. この問題はアーキテクチャ探索問題として定式化されている。 0.57
To cope with the searching, the network is reparameterized with an architecture similar to that of the original network. 探索に対処するため、ネットワークは元のネットワークと同様のアーキテクチャで再パラメータ化される。 0.75
Since the network is trained and pruned from scratch, the second setting is referred to as ‘pruning from scratch’ in this paper. ネットワークはスクラッチからトレーニングされ、プルーニングされるので、この論文では第2の設定を「スクラッチからプルーニング」と呼ぶ。 0.68
In both cases, random pruning aims at searching the optimal numbers of channels for a compact network, by randomly sampling the space of all possible channel configurations. どちらの場合も、ランダムプルーニングは、可能な全てのチャネル構成の空間をランダムにサンプリングすることで、コンパクトネットワークのチャネルの最適な数の探索を目的としている。
訳抜け防止モード: どちらの場合もランダムプルーニングは コンパクトネットワークのための チャネルの最適な数の探索 全てのチャネル構成の空間をランダムにサンプリングすることです
0.78
Although being extremely easy, random pruning performs surprisingly well compared to the carefully designed pruning algorithms. 極めて簡単ではあるが、ランダムな刈り取りは注意深く設計された刈り取りアルゴリズムと比較して驚くほどよく機能する。 0.53
The surprising success of random pruning also call for an optimized sampling method that improves the search efficiency. ランダムプルーニングの驚くべき成功により、探索効率を向上させる最適化されたサンプリング手法も求められている。 0.65
1More discussion in the supplementary. In short, the contributions of this paper are as follows. 1補足の議論。 まとめると、この論文の貢献は以下のとおりである。 0.62
1) We present random pruning, a simplified channel pruning method as a strong baseline to benchmark other channel pruning methods. 1) 他のチャネルプルーニング法をベンチマークするための強力なベースラインとして,簡易なチャネルプルーニング法であるランダムプルーニングを提案する。 0.65
The properties of random pruning are analyzed in this paper. 本稿では,ランダムプルーニングの特性を解析する。 0.62
2) We formalize the basic concepts in channel pruning and try to analyze the reason why random pruning could lead to results comparable to those of carefully designed algorithms. 2) チャネルプルーニングの基本概念を定式化し, ランダムプルーニングが適切に設計されたアルゴリズムに匹敵する結果をもたらす理由を解析しようとする。 0.77
3) We benchmark a number of channel pruning methods, incl. 3) 多くのチャネルプルーニング手法,inclをベンチマークした。 0.68
criteria for random pruning, to get a feel for the current status of channel pruning. ランダムプルーニングの基準は、チャネルプルーニングの現在の状態に対する感触を得ることである。 0.62
2. Related Works Channel pruning methods are one of the primary ways to compress neural networks along with the reduction of number of bits in weights via quantization [7, 13] and low rank approximation [24,32,63,64]. 2.関連作品 チャネルプルーニング法は、量子化[7,13]と低階近似[24,32,63,64]による重みのビット数削減とともに、ニューラルネットワークを圧縮する主要な方法の1つである。 0.76
The purpose of channel pruning methods is to create a thinner architecture while incurring minimal loss in performance relative to that of the original network. チャネルプルーニング手法の目的は、元のネットワークと比較して性能の損失を最小限に抑えながら、より薄いアーキテクチャを作ることである。 0.67
The early pruning methods concentrate around, socalled, unstructured pruning which removes single parameters from networks [14, 49]. 初期のプルーニング手法は、ネットワークから単一のパラメータを取り除くいわゆる非構造化プルーニング(unstructured pruning)に集中している [14, 49]。
訳抜け防止モード: 初期の刈り取り法は いわゆる非構造化刈り込みに集中し ネットワーク[14, 49]から単一のパラメータを削除する。
0.80
These approaches, though interesting theoretically, are more difficult to implement within current hardware and software settings. これらのアプローチは理論的には興味深いが、現在のハードウェアやソフトウェアの設定では実装が難しい。 0.69
Therefore, much recent work has focused on structured pruning where network channels can be removed and the models can be practically compressed and accelerated [2]. そのため、近年の研究では、ネットワークチャネルを除去し、モデルを実用的な圧縮と高速化が可能な構造化プルーニングに焦点を当てている[2]。 0.68
The pruning methods fit in different paradigms. 刈り取り法は異なるパラダイムに適合する。 0.65
Most common pruning approaches rely on pruning the parameters based on the magnitude of the weights, such as L1/L2 norm [57], or more recent median pruning [19]. 最も一般的なプルーニングアプローチは、l1/l2ノルム[57]やより最近の中央プルーニング[19]のような重みの大きさに基づいてパラメータをプルーニングすることに依存している。 0.60
When convolved, weights provide direct way to compute and, after pruning, approximate the feature maps [46]. 畳むと、重み付けは計算の直接の方法を提供し、刈り取りの後にフィーチャーマップ [46] を近似する。
訳抜け防止モード: 畳むと重みは計算と計算の直接的な方法を提供する プルーニングの後 特徴マップ [46 ] を近似します
0.78
Assessing output feature maps, which corresponds to the channels can be an alternative to analyze the importance of the parameters in the network [38, 67]. チャネルに対応する出力特徴マップを評価することは、ネットワーク[38, 67]におけるパラメータの重要性を分析するための代替となる。 0.90
Another group of pruning methods which have been developed over a few decades utilize the gradient of the loss function with respect to the weights by means of first-order or second-order Taylor series approximations [15, 27, 50]. 数十年にわたって開発された別のプルーニング法群は、1次または2次テイラー級数近似 [15, 27, 50] を用いて損失関数の重みに対する勾配を利用する。 0.75
In this line of work, the weights of smaller importance have smaller impact on the loss function and therefore can be removed. この作業では、より重要度の低い重みが損失関数に与える影響が小さくなるため、取り除くことができる。 0.78
Recent approaches are varied and include assessing channel importance by KLdivergence [45], simulated annealing [51], importance sampling [3], and learning Dirichlet distribution over parameters [1]. 近年のアプローチでは, kldivergence [45], simulated annealing [51], important sampling [3], learning dirichlet distribution over parameters [1] によるチャネルの重要性評価が行われている。 0.84
Recently, pruning methods have intertwined with knowledge distillation where two networks, a large and a small one share output information to produce similar results [21, 31, 34, 55]. 近年,2つのネットワーク,大小1つのネットワークが出力情報を共有して同様の結果(21,31,34,55]を得られる知識蒸留とプルーニング手法が絡み合っている。
訳抜け防止モード: 近年,2つのネットワークが存在する知識蒸留とプルーニング手法が絡み合っている。 大小の1つが出力情報を共有する 21, 31, 34, 55] と同様の結果が得られます
0.78
Such approach can be also combined with generative adversarial learning for pruning [39]. このようなアプローチは,[39]を刈り取るための生成的逆学習とも組み合わせることができる。 0.69
2 2 0.42
英語(論文から抽出)日本語訳スコア
Nevertheless, the issue with these methods is that although they provide the importance score for the weights, they neither indicate how many parameters should be pruned nor provide little justification as to choices of the pruned architecture. にもかかわらず、これらの方法の問題は、重み付けの重要性スコアを提供するが、いくつのパラメータを刈り取るべきかを示しず、刈り取られたアーキテクチャの選択について正当化がほとんどないことである。 0.60
However, it is widely considered that some of the pruned architectures can be better than others [12]. しかし、刈り取られたアーキテクチャのいくつかは他のアーキテクチャよりも優れていると考えられる[12]。 0.73
Our work suggests a random architecture search, a simple, unbiased and general approach to compare most of the pruning methods and allows to find a good architecture given a pre-defined model. 我々の研究は、ランダムなアーキテクチャ探索、単純で偏見のない一般的なアプローチを示唆し、プルーニング手法のほとんどを比較し、事前定義されたモデルによって優れたアーキテクチャを見つけることができる。 0.61
We also noticed other works that try to compare different methods [22, 42]. 異なるメソッドを比較する他の作業にも気が付きました [22, 42]。 0.80
Yet, this paper is fundamentally different from those works in the aim and the enlightenment from the analysis. しかし,本論文は,本研究の目的と悟りの両面において,基本的に異なるものである。 0.61
The aim of [42] is to identify the value of network pruning as discovering the network architecture whereas our aim is to propose random pruning as a neutral baseline to compare different pruning methods. 42]の目的は,ネットワークプルーニングの価値をネットワークアーキテクチャの発見として同定することであり,一方,ネットワークプルーニングの手法を比較するために,中立的なベースラインとしてランダムプルーニングを提案することである。 0.68
The study in [22] “guides and motivates the researchers to design more reasonable criteria” while our study finds out that advanced pruning criteria behaves just comparable with the naive L1/L2 norm and calls for an optimized sampling method for efficient search. この研究は、従来のL1/L2法則に匹敵する行動を示し、効率的な探索のための最適化されたサンプリング方法を求める一方で、「より合理的な基準を設計するためのガイドとモチベーション」を研究者に与えている。 0.65
More discussion is given in the supplementary. 補足でさらなる議論がなされる。 0.66
3. Definition and Preliminaries 3.1. 3. 定義・規定3.1。 0.51
Basic concepts and formalization Before delving into the details of the random pruning procedure in this paper, a couple of concepts are first introduced in this section. 基本概念と形式化 本稿では,ランダムプルーニングの手順の詳細を明らかにする前に,まず,いくつかの概念を紹介した。 0.83
Definition 1 (Random selection in channel pruning). 定義1(チャンネルプルーニングにおけるランダム選択)。 0.75
As far as random pruning in the network is concerned, the randomness could occur in different ways. ネットワーク内のランダムな刈り取りに関する限り、ランダム性は異なる方法で発生する可能性がある。 0.80
I. Fully random. I.完全にランダム。 0.82
The channels to be pruned are fully randomly selected without any constraint across layers. プルーニングされるチャネルは、レイヤ間で制約なく完全にランダムに選択される。 0.67
This is often used as a weak baseline [12, 43, 50]. これはしばしば弱いベースライン [12, 43, 50] として使われる。 0.85
II. Constrained Random. II。 制約付きランダム。 0.70
The pruning ratio of each layer is determined according to some prior knowledge. 各層の刈り取り比率は、何らかの事前知識に基づいて決定される。 0.72
The pruned channels within a layer are III. 層内の切断されたチャネルはIIIである。 0.77
Random randomly selected. ランダムに選択される。 0.68
This is studied in [48]. これは[48]で研究される. 0.88
channel number selection. チャンネル番号の選択。 0.88
The pruning ratio of each layer is randomly sampled and the filters in a layer are pruned according certain criteria. 各層のプルーニング比をランダムにサンプリングし、一定の基準に従って層内のフィルタをプルーニングする。
訳抜け防止モード: 各層の刈り取り比はランダムにサンプリングされる そして、層内のフィルターは特定の基準に従って刈り取られる。
0.81
In this paper, the third case of random pruning is studied. 本稿では,ランダムプルーニングの第3事例について検討する。 0.63
Definition 2 (Channel Configuration Space). 定義2(チャンネル構成空間)。 0.68
The channel configuration space E of a network is defined as the space that contains all of the possible channel number configurations. ネットワークのチャネル構成空間Eは、可能なチャネル番号構成のすべてを含む空間として定義される。 0.81
Let cli be the number of channels in a layer li, then the number of channel configurations within a layer is 2cli − 1 (we need at least one channel in a layer) and the i 2cli − 1 samDifferent configurations in the space have varying model complexity (computation, number of parameters, latency) cliをレイヤli内のチャネル数とすると、レイヤ内のチャネル構成の数は2cli − 1(層内に少なくとも1つのチャネルが必要である)で、スペース内のi2cli − 1サムディフィケーション構成は、さまざまなモデルの複雑さ(計算量、パラメータ数、レイテンシ)を持つ。 0.88
space of all the configurations contains(cid:81)n すべての構成の空間は(cid:81)nを含む 0.78
ples, where n is the number of layers in an architecture. nはアーキテクチャ内のレイヤの数です。 0.46
(a) Performance of networks in a neighborhood. (a)近所のネットワークの性能。 0.63
(b) Searching of networks in the configuration space. (b)構成空間におけるネットワークの探索。 0.82
Figure 1. (a) Slightly modified ResNet20 on CIFAR10 image classification. 図1に示す。 (a) CIFAR10画像分類におけるResNet20の簡潔な修正。 0.62
The accuracy of the networks in the local region of the configuration space does not vary a lot. 構成空間の局所領域におけるネットワークの精度はあまり変化しない。 0.67
(b) Random pruning only needs to get a sample in the neighborhood of the optimal solution in the configuration space. b) ランダムプルーニングは、構成空間における最適解の近傍でのみサンプルを得る必要がある。 0.73
and accuracy. Channel pruning methods aim at finding a target channel configuration that maximizes the accuracy of the network given a fixed model complexity. そして正確さ チャネルプルーニング手法は、固定モデルの複雑さを考慮し、ネットワークの精度を最大化するターゲットチャネル構成を見つけることを目的としている。
訳抜け防止モード: そして正確さ チャネルプルーニング手法 固定モデルの複雑さが与えられたネットワークの精度を最大化するターゲットチャネル構成を見つけること。
0.75
The configuration space is very different from the parameter space of a network. 構成空間はネットワークのパラメータ空間とは大きく異なる。 0.64
In the following, two properties that highly influence the channel pruning algorithms are summarized. 以下に、チャネルプルーニングアルゴリズムに強い影響を与える2つの特性を要約する。 0.80
Property 1: The channel configuration space is discrete. プロパティ1: チャネル構成空間は離散的です。 0.72
Conducting differentiable analysis in this space is impossible. この空間における微分解析は不可能である。 0.58
This property constitutes a major challenge for channel pruning and architecture search methods. この特性は、チャネルプルーニングとアーキテクチャ検索における大きな課題となっている。 0.66
To conduct a search in the space, reinforcement learning, evolutionary algorithm, and also proximal gradient descent have been utilized [18, 33, 41]. この空間における探索を行うために,強化学習,進化アルゴリズム,近位勾配降下([18,33,41])が活用されている。 0.80
Property 2: Slightly changing the channel number of a network does not change the accuracy of the network too much, which means that channel configurations in a local region of the configuration space tend to have similar accuracy. プロパティ2: ネットワークのチャネル番号をわずかに変更してもネットワークの精度があまり変化しないため、構成空間のローカル領域におけるチャネル構成は、同様の精度を持つ傾向にある。 0.85
This property is shown in Fig 1a, where the accuracy of the network in the top-left region does change a lot. この特性は図1aに示され、左上の領域のネットワークの精度が大きく変化する。
訳抜け防止モード: この性質は図1aで示されています。 左上の領域のネットワークの精度は 大きく変化します
0.72
This property means that the solution to channel pruning problem is not unique. この性質は、チャネルプルーニング問題の解が一意ではないことを意味する。 0.50
Instead, a group of solutions can exist. 代わりに、解群が存在することができる。 0.61
This sheds light on the effectiveness of random pruning. これはランダムプルーニングの有効性に光を当てる。 0.59
Regularization-based methods gradually update from initial networks to the optimal solutions [31,57]. 正規化に基づく手法は初期ネットワークから最適解 [31,57] へと徐々に更新される。 0.64
By contrast, random pruning only needs to get a sample in the neighborhood of the optimal solution instead of optimal solution itself (See Fig 1b). 対照的に、ランダムプルーニングは最適解そのものではなく、最適解の近傍でサンプルを得る必要がある(図1b参照)。 0.70
As mentioned in the introduction, we study random pruning for channel pruning in two settings. はじめに述べたように,チャネルプルーニングのランダムプルーニングを2つの設定で検討する。 0.65
We describe them below. Setting 1: Pruning pre-trained networks. 以下に説明する。 設定1:事前訓練ネットワークの運用。 0.62
In this setting, channel pruning methods take a pre-trained network and prune the less important channels according to an importance score. この設定では、チャンネルプルーニング法はトレーニング済みのネットワークを取り込み、重要度に応じて重要度が低いチャネルをプルーニングする。 0.68
Setting 2: Pruning from scratch. 設定2:スクラッチから刈り取る。 0.55
In this setting, the network is trained from scratch [4,6,33,41,59,60]. この設定では、ネットワークはスクラッチ[4,6,33,41,59,60]からトレーニングされる。 0.51
During each 3 それぞれの間 3 0.57
英語(論文から抽出)日本語訳スコア
mini-batch iteration, sub-networks in the allowable channel configuration space in Sec. 5.1 are trained in parallel such that four sub-networks are sampled and used for parameter update. Sec.1の許容チャネル構成空間におけるミニバッチ反復、サブネットワークは、4つのサブネットワークがサンプリングされ、パラメータ更新に使用されるように並列に訓練される。 0.70
To cope with the parallel training, a network with architectures similar to the original network is rebuilt according to the description in Sec. 5. 並列トレーニングに対処するため、Sec.5の記述に従って、元のネットワークに似たアーキテクチャを持つネットワークを再構築する。 0.81
After the training, optimized searching method is used to seek the candidate networks [4,6,59]. トレーニング後、最適化された探索手法を用いて候補ネットワークを探索する[4,6,59]。 0.72
A recent work also incorporates the searching phase into the training phase by penalizing parameters in the rebuilt network, achieving faster convergence [33]. 近年の研究では、再構成ネットワーク内のパラメータをペナライズすることで、探索フェーズをトレーニングフェーズに組み込んで、より高速な収束[33]を実現している。
訳抜け防止モード: 最近の研究では、探索フェーズをトレーニングフェーズに統合している。 再構成ネットワークにおけるペナライズパラメータ 高速収束[33]を達成する。
0.65
In the process of pruning the network, the crucial benchmark is the evaluation of the pruned model itself. ネットワークをprunするプロセスにおいて、重要なベンチマークはprunedモデル自体の評価である。 0.61
When pruning and finetuning are done iteratively, it is possible to evaluate the performance of the network during pruning. プルーニングと微調整を反復的に行うと、プルーニング中のネットワークの性能を評価することができる。 0.62
But if the network is severely pruned, the accuracy of the network drops drastically. しかし、もしネットワークがひどく刈り取られた場合、ネットワークの精度は劇的に低下する。 0.76
For example, when directly pruning 30% of the computation in MobileNetV2, Top-1 error could deteriorate to 90%. 例えば、MobileNetV2で30%を直接計算すると、Top-1エラーは90%に低下する可能性がある。 0.70
Directly evaluating the network in this case becomes unreliable. この場合、ネットワークを直接評価することは信頼できない。 0.66
In short, we are faced with the challenge: how to evaluate the performance of a pruned network in an efficient way? 要するに、我々は、効率的な方法で刈り取られたネットワークの性能をどのように評価するかという課題に直面している。
訳抜け防止モード: 要するに、我々は挑戦に直面している : どのようにして プルーニングネットワークの性能を 効率的に評価するために?
0.81
For the two pruning settings, there exist different solutions. 2つのプルーニング設定では、異なる解決策が存在する。 0.66
When pruning a pre-trained network with random pruning, the parameters of the pruned network are updated by minimizing the difference between the feature maps of the pruned network and the original network layer by layer Compared with finetuning the network for several epochs, the updating the parameters is more efficient, especially when the number of random samples is large. 事前学習したネットワークをランダムなプルーニングでプルーニングする場合、プルーニングされたネットワークの特徴マップと、ネットワークを数エポックにわたって微調整することと比較して、レイヤ毎に元のネットワーク層との違いを最小化し、プルーニングされたネットワークのパラメータを更新する。 0.69
When pruning from scratch, the solution lies in the parallel training procedure of the network. スクラッチからプルーすると、ソリューションはネットワークの並列トレーニング手順に置かれる。 0.67
During training, a large number of sub-networks are sampled. トレーニング中、多数のサブネットワークがサンプル化されている。 0.68
The network is trained such that the accuracy of all of the sub-networks tends to decrease. ネットワークは、全てのサブネットワークの精度が低下する傾向があるように訓練される。 0.77
Parallel training arms the network with the capability of interpolating the accuracy of unsampled subnetworks. 並列トレーニングアーム ネットワークは、アンサンプリングされたサブネットワークの精度を補間する能力を持つ。 0.67
Thus, after training, it is possible to evaluate the performance of the sampled sub-networks reliably. これにより、トレーニング後のサンプルサブネットワークの性能を確実に評価することができる。 0.81
3.2. Pruning criteria 3.2. プルーニング基準 0.49
For channel pruning, it is crucial to evaluate the relative importance of the channels. チャネルプルーニングでは,チャネルの相対的重要性を評価することが重要である。 0.77
There exist several methods that try to measure the channel importance score from different perspectives. チャンネル重要度を異なる視点から測定しようとする方法がいくつか存在する。 0.84
The most straightforward method is based on the L1/L2 norms of the filters. 最も単純な方法はフィルタのL1/L2ノルムに基づいている。 0.75
Consider an individual layer in a network with weight parameters W = [W1,··· , Wn], where W ∈ Rn×c×w×h, Wi ∈ Rc×w×h denotes the i-th output channel of the network (for clarity, we omit the bias). 重みパラメータ W = [W1,··· , Wn] を持つネットワーク内の個々の層を考えると、W ∈ Rn×c×w×h, Wi ∈ Rc×w×h はネットワークのi番目の出力チャネルを表す(明快性についてはバイアスを省略する)。 0.88
n, c, w × h denote the number of output channel, input channel, and kernel size of the layer. n, c, w × h は層の出力チャネル数、入力チャネル数、カーネルサイズを表す。 0.68
Then the L1/L2 norm based importance score is computed as Inorm = ∥Wi∥p, where p could be 1 or 2. このとき、l1/l2 のノルムに基づく重要度スコアは、p が 1 または 2 であるような inorm = で計算される。 0.61
The filters with smaller norms are likely to be pruned since they generate output feature map with smaller magnitude. 基準が小さいフィルタは、より小さい出力特徴写像を生成するため、プルーニングされる可能性が高い。 0.73
Yet, some work point out that relying on L1/L2 norms could be problematic since the batch normalization layer could recalibrate the magnitude of the feature map [57]. しかし、バッチ正規化層が特徴写像 [57] の大きさを再分類できるため、L1/L2ノルムに依存することは問題になる、と指摘する作業もある。
訳抜け防止モード: しかし、そのことを指摘する研究もある。 L1/L2ノルムに依存するさま 問題になるかもしれません バッチ正規化レイヤは 特徴マップ [ 57 ] の規模を補正できる
0.64
In addition, the ”smaller-norm-less-in formative” criteria does not respect the distribution of filters in the network [19]. さらに、"smaller-norm-less-in formative"基準はネットワーク内のフィルタの分布を尊重しない [19]。 0.87
Thus, in [19] geometric median is proposed to overcome (cid:80) the problem. このように, [19] 幾何学的中央値では, (cid:80) 問題を克服することが提案されている。 0.55
This criteria discovers the similar filters which could be replaced by the other filters, Igm = j S(Wi, Wj), where S(·,·) denotes the similarity be- この基準は、他のフィルタに置換できる類似フィルタ、Igm = j S(Wi, Wj) を発見し、S(·,·) は類似度 be を表す。
訳抜け防止モード: この基準は、他のフィルターに置き換えられるような類似のフィルターを発見する。 igm = j s(wi, wj ) である。 · ) は be- の類似性を表す
0.85
tween two filters. Ikl = (cid:80) フィルターを2つ Ikl = (cid:80) 0.54
k Pk log( Pk Qi k k Pk log(Pk Qi k) 0.46
The above criteria are only based on the distribution of the filters in the network, which may not fully respect their influence on the accuracy of the network. 上記の基準は、ネットワーク内のフィルタの分布のみに基づいており、ネットワークの精度への影響を完全に尊重するものではない。 0.79
Thus, in [45], Kullback–Leibler divergence is used to measure the importance of a channel by masking out it in the network, ), where P is the output probabilk is the probability of ity of the original network and Qi the pruned network by masking out the single channel in the network. このように、[45]において、Kullback-Leibler分散は、ネットワーク内でそれをマスキングすることでチャネルの重要性を測定するために使用され、ここで、Pは出力確率であり、Qiはネットワーク内の単一チャネルをマスキングすることで、元のネットワークの真偽の確率である。 0.78
Channels with smaller KL divergence score have weaker influence on the output probability and can be pruned. kl分岐点が小さいチャンネルは出力確率に弱い影響があり、刈り取ることができる。 0.71
However, this method requires to conduct one forward-pass for every channel in the network. しかし、この方法はネットワーク内の各チャネルに対して1つのフォワードパスを実行する必要がある。 0.60
This is quite slow compared with other methods. これは他の方法と比べて非常に遅い。 0.74
In [50], an accelerated computing method by estimating the prediction error with and without a specific parameter. [50]では,予測誤差をパラメータを指定せずに推定し,高速化した計算手法を提案する。 0.80
The estimation is done by taking the first- or second- order Taylor expansion of the prediction error. 推定は、予測誤差の1階または2階テイラー展開を取ることで行われる。 0.75
In short, the importance score of a chans gsws)2, where ws denotes a single weight in the channel Wi and gs denotes the gradient. 言い換えると、chans gsws)2 の重要度スコアは、チャネル wi と gs の 1 つの重みを表す ws は勾配を表す。 0.61
Furthermore, in [3, 37], an empirical sensitivity based on the feature map is proposed. さらに,[3,37]では,特徴マップに基づく経験的感度が提案されている。 0.73
Intuitively, the sensitivity of a feature map reflects the relative impact it has on the preactivations in the next layer. 直感的には、特徴写像の感度は、次の層の事前活性化に対する相対的な影響を反映する。 0.68
In this paper, we try to compare the six metrics under random pruning. 本稿では,ランダムプルーニングにおける6つの指標を比較する。 0.74
nel is computed by Ite = ((cid:80) nel は ite = ((cid:80) で計算される。 0.70
4. Pruning Pre-trained Networks 4.プレトレーニングネットワークの運営 0.74
In this section, the random procedure for pruning a pretrained model is introduced. 本節では、事前学習したモデルを刈り取るためのランダム手順を導入する。 0.64
The pipeline is shown in Fig 2. パイプラインは図2に示されます。 0.70
The pruning algorithm starts with a pre-trained network. プルーニングアルゴリズムは、事前訓練されたネットワークから始まる。 0.68
The importance score of individual channels in the pretrained network is first computed. 事前訓練されたネットワークにおける個別チャネルの重要性スコアをまず計算する。 0.72
The importance score is the indicator of which channels should be pruned in the next step. 重要度スコアは、次のステップでどのチャネルを刈るべきかを示す指標である。 0.65
Then we select a number of sub-architectures and prune the channels with the lowest score. 次に、いくつかのサブアーキテクチャを選択し、最も低いスコアでチャネルをプーンする。 0.57
A subarchitecture is formed by sampling pruning ratios for each layer separately, and then pruning the number of channels given by the ratio. 各層毎の刈り込み比を別々にサンプリングし、その率で与えられる流路数を刈り取ることでサブアーキテクチャを形成する。 0.75
A minimum ratio of remaining channels is set. 残りのチャネルの最小比率が設定される。 0.84
That is, the range for sampling the pruning ratio is [η, 1] Next, the parameters of the pruned network are updated by minimizing the squared difference between features maps of the pruned network and the original network, and the accuracy of the pruned network is evaluated on the すなわち、プルーニング比をサンプリングする範囲は[η, 1]であり、プルーニングされたネットワークと元のネットワークの特徴マップの2乗差を最小化し、プルーニングされたネットワークのパラメータを更新し、プルーニングされたネットワークの精度を評価する。 0.83
4 4 0.42
英語(論文から抽出)日本語訳スコア
validation set. The top-5 accurate models are selected and fine-tuned for several epochs to further recover the accuracy of the network. 検証セット。 トップ5の正確なモデルは選択され、ネットワークの精度をさらに回復するためにいくつかのエポックのために微調整される。 0.59
Finally, the model with the best accuracy is selected and fine-tuned for longer epochs. 最後に、最適精度のモデルを選択し、より長いエポックに対して微調整する。 0.67
Next, the important steps in the pipeline are explained in detail. 次に、パイプラインの重要なステップを詳細に説明する。 0.63
4.1. Random sampling 4.1. ランダムサンプリング 0.53
The sub-networks are derived by random sampling the pruning ratio for each layer independently. サブネットワークは、各層毎の刈り取り比をランダムにサンプリングして導出する。 0.68
In total, a population of N sub-networks are sampled. 全体では、Nサブネットワークの人口がサンプリングされている。 0.64
The configurations that meet the target computational complexity are kept. 対象の計算複雑性を満たす構成は保持される。 0.77
Specifically, let Cprune and Corig denotes the floating point operations (FLOPs) of the pruned network and the original network, respectively. 具体的には、Cprune と Corig は、それぞれプルーンドネットワークと元のネットワークの浮動小数点演算(FLOP)を表す。 0.69
Then the samples that meet the following criteria are kept, i.e. 次に、以下の基準を満たしたサンプル、すなわち、保持する。 0.77
(cid:12)(cid:12)(cid :12)(cid:12)Cprune (cid:12)(cid:12)(cid :12)cprune) 0.42
(cid:12)(cid:12)(cid :12)(cid:12) <= T , (cid:12)(cid:12)(cid :12) <= t , 0.48
− γ Corig (1) where γ is the overall pruning ratio of the network and T is the threshold that confines the difference between the actual and target pruning ratio. − γ コリッグ 1) γ がネットワーク全体のプルーニング比であり、T が実際のプルーニング比と対象プルーニング比との差を限定する閾値である。 0.53
During the sampling, the minimum ratio of remaining channels η is empirically set around (equal to or slightly smaller than) the overall pruning ratio γ based on the following considerations. サンプリング中、残りのチャネルηの最小比は、以下の考察に基づいて、全体の刈り分け比γを経験的に(等しく、またはわずかに小さい)設定する。 0.69
1) This setting is simple enough and does not involve complicated hyperparameter tuning. 1) この設定は十分単純であり、複雑なハイパーパラメータチューニングを伴わない。 0.82
2) It allows for a reasonably constrained random sampling sub-space for the algorithm to explore. 2) アルゴリズムの探索に適度に制約のあるランダムサンプリングサブスペースを可能にする。 0.84
The setting of η prevents the case where a major part of the channels in a layer is pruned. ηの設定は、層内のチャネルの主要部分がプルーニングされる場合を防ぐ。 0.67
A bottleneck in the network could harm the performance of the pruned network. ネットワークのボトルネックは、刈り取られたネットワークの性能を損なう可能性がある。 0.68
The random sampling procedure searches the configuration space. ランダムサンプリング手順は構成空間を探索する。 0.73
Although it seems to be quite easy, it is shown in the experiments that this procedure is surprisingly competitive. 極めて容易なように思えるが、実験ではこの手順が驚くほど競争力があることが示されている。 0.74
4.2. Updating network parameter 4.2. ネットワークパラメータの更新 0.57
For each sampled sub-architecture, the network is directly pruned according to the per-layer pruning ratio. サンプル化されたサブアーキテクチャごとに、ネットワークは層ごとのプルーニング比に従って直接プルーニングされる。 0.63
Yet, the accuracy of the network is very likely to drop drastically after pruning, especially when the pruning ratio is high. しかし,特にプルーニング率が高い場合には,プルーニング後のネットワークの精度が大幅に低下する可能性が非常に高い。 0.79
Directly evaluating the pruned network is not reliable. 刈り取られたネットワークを直接評価することは信頼できない。 0.63
The common practice is to fine-tune the network for a few epochs. 一般的なプラクティスは、いくつかのエポックでネットワークを微調整することです。 0.56
But this could be time-consuming considering that a large population of sub-networks are sampled. しかし、大量のサブネットワークがサンプル化されていることを考えると、これは時間がかかりそうだ。 0.50
Instead, we opt for another solution, i.e. minimizing the distance between the feature maps of the pruned network and the original network [20, 29, 46]. 代わりに、prunedネットワークの機能マップと元のネットワーク [20,29,46] との間の距離を最小化する別のソリューションを選択します。 0.76
Let Fp ∈ Rn′×d and Fo ∈ Rn×d denote the feature map of the pruned network and the original network, respectively. Fp ∈ Rn′×d と Fo ∈ Rn×d をそれぞれ、切断されたネットワークと元のネットワークの特徴写像とする。 0.84
Note that the feature maps are reshaped into matrices. 特徴写像は行列に再構成される。 0.49
Since the network is pruned, its feature map has less channels than the original network, i.e. n′ < n. ネットワークは刈り取られているため、その特徴マップは元のネットワークよりもチャネルが少なく、すなわち n′ < n である。 0.84
The parameters in the pruned network is updated by minimizing the following loss function ∥ˆFo − XFp∥2 2, 刈り取られたネットワークのパラメータは、次の損失関数を最小化して更新される。 0.70
L = arg min (2) l = アルグミン (2) 0.43
X Figure 2. The pipeline of random pruning a pre-trained model. X 図2。 事前訓練されたモデルのランダムプルーニングのパイプライン。 0.63
where ˆFo ∈ Rn′×d is the feature map of the original network with the corresponding channels removed and X ∈ Rn′×n′ is the additional parameter that updates the pruned network. f ∈ rn′×d は元のネットワークの特徴写像であり、対応するチャネルは取り除かれ、x ∈ rn′×n′ は刈り取られたネットワークを更新する追加のパラメータである。 0.74
The parameter X can be derived with least square solvers. パラメータXは、最小二乗ソルバで導出することができる。 0.67
It can be further merged with the original parameter in the layer of the network. さらに、ネットワークのレイヤ内の元のパラメータとマージすることもできる。 0.63
Thus, in fact, no additional parameter or computation is introduced in the pruned network. したがって、prunedネットワークでは追加のパラメータや計算は導入されていない。 0.76
This parameter updating procedure is done layer-wise. このパラメータ更新手順は層単位で行われる。 0.74
5. Pruning From Scratch 5.スクラッチからの刈り取り 0.72
In this section, the procedure used to prune a network from scratch is described. 本節では、ネットワークをスクラッチからプルする手順について述べる。 0.53
The pipeline is shown in Fig 3. パイプラインは図3に示されています。 0.65
In this setting, the pipeline starts with the architecture of the original network. この設定では、パイプラインは元のネットワークのアーキテクチャから始まります。 0.68
We build a slimmable network according to [60]. 60]に従ってスリムなネットワークを構築します。 0.72
The permissible channel configurations are described in Sec. 5.1. 許容チャンネル構成は、sec. 5.1に記載されている。 0.69
Then the network is initialized and trained from scratch. その後、ネットワークは初期化され、スクラッチからトレーニングされる。 0.62
Parallel training is conducted. 並行訓練が行われる。 0.81
That is, for each mini-batch iteration during training, four subnetworks are sampled including the complete network and three random samples. つまり、トレーニング中のミニバッチイテレーション毎に、完全なネットワークと3つのランダムサンプルを含む4つのサブネットがサンプリングされる。 0.79
Four forward and backward passes are conducted. 前方と後方の4つのパスが実行される。 0.57
The gradients during the four backward passes are accumulated and used to update the parameters in the network. 4回の後方通過中の勾配は蓄積され、ネットワーク内のパラメータを更新するために使用される。 0.73
The maximum network is always sampled, which guarantees that all of the parameters are updated during one iteration. 最大ネットワークは常にサンプリングされ、1回のイテレーションですべてのパラメータが更新されることを保証する。 0.73
In-place knowledge distillation is used. 現地での知識蒸留が用いられる。 0.60
After the training stage, the channel configuration is still searched by random sampling. トレーニングステージの後、チャンネル構成はランダムサンプリングによって検索される。 0.71
Thus, a population of N sub-networks satisfying Eqn. したがって、Nサブネットワークの人口はEqnを満たす。 0.75
1 are derived. Owing to the parallel training, the network gains the capability of interpolating the accuracy of unsampled sub-networks. 1 が導出される。 並列トレーニングにより、ネットワークはアンサンプリングされたサブネットワークの精度を補間する能力を得る。 0.68
Thus, the sub-networks can be evaluated directly on the validation set and the accuracy is reliable. これにより、検証セットに基づいてサブネットワークを直接評価でき、精度が信頼性が高い。 0.71
After that, the top 50 models その後、トップ50モデルが登場。 0.80
5 Pre-trainedmodelComp utetheimportancescor eSampleasub-architec tureUpdateparameters withsquarelossandtes tAllsamplestested? 5 事前トレーニングされたmodelcomputetheimpor tancescoresampleasub -architectureupdatep arameterswithsquarel ossandtestallsamples ? 0.24
Selecttop-5modelsand finetuneSelectthebestm odelandfinetunenoyes1 Selecttop-5modelsand finetuneSelectthebes tmodelandfinetunenoy es1 0.04
英語(論文から抽出)日本語訳スコア
Criterion Error (%) Error (%) 基準 エラー(%) エラー(%) 0.69
Top-1 Top-5 FLOPs [G] / Ratio (%) トップ1 トップ5 FLOPs [G] / Ratio (%) 0.61
Params [M] / Ratio (%) パラム[M]/ Ratio (複数形 Ratios) 0.61
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
Scratch Baseline スクラッチ ベースライン 0.60
L1 L2 GM TE ES KL L1 L2 GM TE ES KL 0.46
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
VGG16, Target FLOPs Ratio 70 % 15.50 /100.00 11.11 /71.67 10.87 /70.10 11.09 /71.55 10.65 /68.70 10.38 /66.98 10.91 /70.37 VGG16, Target FLOPs Ratio 70 % 15.50 /100.00 11.11 /71.67 10.87 /70.10 11.09 /71.55 10.65 /68.70 10.38 /66.98 10.91 /70.37 0.22
8.5 8.68 8.82 8.77 8.77 8.60 8.88 8.5 8.68 8.82 8.77 8.77 8.60 8.88 0.21
26.63 27.14 27.01 27.96 27.04 26.76 27.22 26.63 27.14 27.01 27.96 27.04 26.76 27.22 0.21
ResNet18, Target FLOPs Ratio 70 % 1.82 /100.00 1.28 /70.53 1.31 /71.92 1.30 /71.67 1.30 /71.38 1.30 /71.31 1.31 /72.14 1.28 /70.38 ResNet18, Target FLOPs Ratio 70 % 1.82 /100.00 1.28 /70.53 1.31 /71.92 1.30 /71.67 1.30 /71.38 1.30 /71.31 1.31 /72.14 1.28 /70.38 0.22
10.92 12.02 11.79 11.87 11.83 11.86 11.93 11.71 10.92 12.02 11.79 11.87 11.83 11.86 11.93 11.71 0.21
30.24 32.08 31.69 31.76 31.76 31.66 31.90 31.68 30.24 32.08 31.69 31.76 31.76 31.66 31.90 31.68 0.21
ResNet18, Target FLOPs Ratio 50 % 1.82 /100.00 0.94 /51.80 0.93 /51.30 0.92 /50.57 0.94 /51.69 0.94 /51.90 0.93 /50.88 ResNet18, Target FLOPs Ratio 50 % 1.82 /100.00 0.94 /51.80 0.93 /51.30 0.92 /50.57 0.94 /51.69 0.94 /51.90 0.93 /50.88 0.22
10.92 13.81 13.97 13.44 13.81 14.03 13.94 10.92 13.81 13.97 13.44 13.81 14.03 13.94 0.21
30.24 34.98 35.18 34.50 34.66 35.34 35.10 30.24 34.98 35.18 34.50 34.66 35.34 35.10 0.21
ResNet50, Target FLOPs Ratio 70 % 4.11 /100.00 2.81 /68.41 2.94 /71.48 2.87 /69.89 2.89 /70.32 2.89 /70.26 2.92 /70.94 ResNet50, Target FLOPs Ratio 70 % 4.11 /100.00 2.81 /68.41 2.94 /71.48 2.87 /69.89 2.89 /70.32 2.89 /70.26 2.92 /70.94 0.22
7.13 7.51 7.35 7.40 7.43 7.48 7.49 7.13 7.51 7.35 7.40 7.43 7.48 7.49 0.21
23.85 24.77 24.33 24.65 24.69 24.66 24.66 23.85 24.77 24.33 24.65 24.69 24.66 24.66 0.21
MobileNetV2, Target FLOPs Ratio 70 % 28.12 32.22 31.84 31.89 32.09 31.93 31.96 MobileNetV2, Target FLOPs Ratio 70 % 28.12 32.22 31.84 31.89 32.09 31.93 31.96 0.29
0.314 /100.00 0.224 /71.22 0.225 /71.63 0.223 /71.12 0.223 /70.87 0.223 /71.03 0.225 /71.54 0.314 /100.00 0.224 /71.22 0.225 /71.63 0.223 /71.12 0.223 /70.87 0.223 /71.03 0.225 /71.54 0.18
9.71 12.04 11.85 11.88 12.01 11.77 11.93 9.71 12.04 11.85 11.88 12.01 11.77 11.93 0.21
138.4 /100.00 112.3 /81.14 128.8 /93.09 108.4 /78.34 130.4 /94.27 130.9 /94.63 128.9 /93.15 138.4 /100.00 112.3 /81.14 128.8 /93.09 108.4 /78.34 130.4 /94.27 130.9 /94.63 128.9 /93.15 0.18
11.69 /100.00 8.90 /76.10 9.58 /81.92 9.97 /85.27 9.79 /83.77 9.41 /80.53 9.77 /83.54 10.06 /86.05 11.69 /100.00 8.90 /76.10 9.58 /81.92 9.97 /85.27 9.79 /83.77 9.41 /80.53 9.77 /83.54 10.06 /86.05 0.18
11.69 /100.00 7.49 /64.06 6.88 /58.88 8.04 /68.80 8.02 /68.60 6.74 /57.67 7.78 /66.53 11.69 /100.00 7.49 /64.06 6.88 /58.88 8.04 /68.80 8.02 /68.60 6.74 /57.67 7.78 /66.53 0.18
25.56 /100.00 18.24 /71.35 20.23 /79.15 18.60 /72.80 20.58 /80.53 18.06 /70.66 18.60 /72.76 25.56 /100.00 18.24 /71.35 20.23 /79.15 18.60 /72.80 20.58 /80.53 18.06 /70.66 18.60 /72.76 0.18
3.50 /100.00 2.65 /75.74 2.62 /74.81 2.69 /76.65 2.63 /75.16 2.63 /75.10 2.64 /75.36 3.50 /100.00 2.65 /75.74 2.62 /74.81 2.69 /76.65 2.63 /75.16 2.63 /75.10 2.64 /75.36 0.18
Table 1. Benchmarking channel pruning criteria on ImageNet classification under the scheme of random pruning. 表1。 ランダムプルーニング方式によるイメージネット分類におけるベンチマークチャネルプルーニング基準 0.66
work is trained for 300 epochs with the initial learning rate of 0.1 and the batch size of 64. 作業は300エポックでトレーニングされ、最初の学習率は0.1、バッチサイズは64である。 0.71
The learning rate decays by 0.1 at the epochs 150 and 225. 学習率は150歳から225歳までに0.1度減少する。 0.67
When pruning the pretrained models, the pruned architectures with the channels selected by the above methods are tested. 事前訓練されたモデルをプルーニングすると、上記の方法で選択したチャネルを持つプルーニングアーキテクチャがテストされる。 0.68
The top-5 pruned models are selected and fine-tuned for 5 epochs. トップ5のプルーニングモデルが選択され、5つのエポックで微調整される。 0.55
Eventually to narrow down the search we choose the best model and fine-tune it again to obtain the final pruned model. 最終的には、探索を絞り込むため、最良のモデルを選択し、それを再度微調整して、最終的なプルーンドモデルを得る。 0.61
For ImageNet and CIFAR, the networks are fine-tuned for 25 and 50 epochs respectively unless otherwise stated. ImageNetとCIFARでは、ネットワークはそれぞれ25と50のエポックで微調整されている。 0.75
When pruning from scratch, the network is initially trained for 40 epochs. スクラッチから刈り取ると、ネットワークは当初40エポックのトレーニングを受ける。 0.60
After pruning, the network is reinitialized and retrained for 90 epochs. 刈り取り後、ネットワークは再起動し、90エポックで再訓練される。 0.67
The population of the sampled sub-network is 100. サンプルされたサブネットワークの人口は100人である。 0.64
The threshold T for random sampling is set to 0.02. ランダムサンプリングのしきい値Tを0.02とする。 0.83
6.1. Benchmarking channel pruning criteria 6.1. ベンチマークチャンネルの刈り取り基準 0.51
It is worth noting that the implemented random pruning method indicates how many channels of each layer should 実装されたランダムプルーニング法は各層のチャネル数を示すことに注意する必要がある。 0.77
Figure 3. The pipeline of the random pruning from scratch. 図3。 ランダムプルーニングのパイプラインをスクラッチから切り離します。 0.68
are further trained for a few epochs. さらにいくつかの時代に向けて 訓練されています 0.46
Finally, the best model among the 50 models is selected and retrained from scratch. 最後に,50モデル中最高のモデルを選択し,スクラッチから再トレーニングする。 0.85
In the next subsection, the considerations for rebuilding the network are described. 次の節では、ネットワークの再構築に関する考察について述べる。 0.69
5.1. Designing the network pruning space 5.1. ネットワークプルーニング空間の設計 0.55
One problem encountered in this setting is that the total number of sub-networks is quite large. この設定で遭遇する問題の1つは、サブネットワークの総数が非常に大きいことである。 0.74
Searching in that large search space is a challenge. その大きな検索空間で検索することは難しい。 0.74
Thus, to ease the problem, the pruning space is restricted as follows. したがって、問題を緩和するため、刈り取り空間は次のように制限される。 0.70
1) The number of channels is confined to be multiples of 8. 1)チャネル数は8の倍数に制限される。 0.67
Although making the channel number selection discrete, this strategy reduces the possible network samples significantly. チャネル番号の選択を離散化するが、この戦略はネットワークサンプルを著しく削減する。 0.75
For example in the case ResNet-18, the number of possible sub-network configurations is reduced from 2.4 × 1024 to 2.8 × 1014. 例えば ResNet-18 の場合、サブネットワーク構成の数は 2.4 × 1024 から 2.8 × 1014 に削減される。 0.85
This design is inspired by Property 2 of the configuration space. この設計は構成空間のプロパティ2にインスパイアされている。 0.79
2) The minimum number of channels is reset and rounded to multiples of 8. 2)最小チャンネル数は8の倍数にリセットされ、丸められる。 0.77
This again avoids the very narrow bottleneck in the network. これにより、ネットワークの非常に狭いボトルネックが再び回避される。 0.55
For example, when pruning 30% of the FLOPs of ResNet-18, we empirically require 40% of the channels must be kept. 例えば、ResNet-18のFLOPの30%をプルーニングする場合、私たちは経験的に、40%のチャネルを保持する必要がある。 0.67
3) For a fair comparison with pruning pre-trained networks, the maximum network width is not expanded. 3) 事前学習したネットワークを公平に比較すると, 最大ネットワーク幅は拡大しない。 0.83
6. Experimental Results The experimental results are shown in this section. 実験結果 実験結果は本項で示す。 0.48
The experiments are conducted on three commonly used networks, including VGG [54], ResNet [16] and its variants, and MobileNetV2 [53]. 実験は、VGG[54]、ResNet[16]とその変種、MobileNetV2[53]を含む3つの一般的なネットワークで実施される。 0.75
For ImageNet [8] experiments, the pre-trained models provided by PyTorch [52] are used as the baseline. ImageNet [8] 実験では,PyTorch [52] が提供する事前学習モデルがベースラインとして使用される。 0.83
For CIFAR [26] experiments, the original net- CIFAR [26]実験における元のネット- 0.90
6 Originalarchitecture Rebuildandreparam-et erizethenetworkSampl esub-architecturesan dconductparalleltrai ningTrainingfinished? 6 Originalarchitecture Rebuildandreparam-et erizetheworkSamplesu b-architecturesandco nductparalleltrainin gTrainingfinished? 0.23
Sampleandtest100sub- architecturesSelectt op50modelsandfine-tuneSelectthebest modelandretrainnoyes 1 Sampleandtest100-arc hitecturesSelecttop5 0modelsandfine-tuneS electthebestmodeland retrainnoyes1 0.05
英語(論文から抽出)日本語訳スコア
Criterion Error (%) Error (%) 基準 エラー(%) エラー(%) 0.69
Top-1 Top-5 FLOPs [G] / Ratio (%) トップ1 トップ5 FLOPs [G] / Ratio (%) 0.61
Params / Ratio (%) params (複数形 paramss) 0.43
Methods Epoch Top-1 Err. 方法 時代 トップ1のerr。 0.50
(%) Top-5 Err. (%) (%) トップ5。 (%) 0.49
FLOPs Ratio Params Ratio フロップ比 パラム比 0.45
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
5.67 6.1 6.06 5.99 6.51 6.21 6.19 5.67 6.1 6.06 5.99 6.51 6.21 6.19 0.21
5.58 6.72 6.52 6.39 6.86 6.59 7.12 5.58 6.72 6.52 6.39 6.86 6.59 7.12 0.21
31.53 33.41 33.39 33.32 34.24 33.81 33.32 31.53 33.41 33.39 33.32 34.24 33.81 33.32 0.21
VGG, CIFAR10 0.58 0.69 0.67 0.52 0.61 0.64 0.66 VGG, CIFAR10 0.58 0.69 0.67 0.52 0.61 0.66 0.28
313.80 /100.00 160.50 /51.15 150.60 /47.99 154.60 /49.27 157.00 /50.03 157.20 /50.10 161.50 /51.47 313.80 /100.00 160.50 /51.15 150.60 /47.99 154.60 /49.27 157.00 /50.03 157.20 /50.10 161.50 /51.47 0.18
ResNet56, CIFAR10 ResNet56, CIFAR10 0.39
0.26 0.79 0.76 0.77 0.59 0.67 0.67 0.26 0.79 0.76 0.77 0.59 0.67 0.67 0.21
9.87 10.42 10.62 10.35 10.92 10.13 10.62 9.87 10.42 10.62 10.35 10.92 10.13 10.62 0.21
126.80 /100.00 63.60 /50.16 64.70 /51.03 65.40 /51.58 65.70 /51.81 65.80 /51.89 65.20 /51.42 126.80 /100.00 63.60 /50.16 64.70 /51.03 65.40 /51.58 65.70 /51.81 65.80 /51.89 65.20 /51.42 0.18
41.20 /100.00 20.80 /50.49 21.00 /50.97 20.60 /50.00 20.00 /48.54 21.00 /50.97 21.20 /51.46 41.20 /100.00 20.80 /50.49 21.00 /50.97 20.60 /50.00 20.00 /48.54 21.00 /50.97 21.20 /51.46 0.18
ResNet20, CIFAR100 ResNet20, CIFAR100 0.39
14.73M /100.00 5.05M /34.32 6.20M /42.11 4.13M /28.04 5.84M /39.63 7.06M /47.90 6.52M /44.26 14.73M /100.00 5.05M /34.32 6.20M /42.11 4.13M /28.04 5.84M /39.63 7.06M /47.90 6.52M /44.26 0.15
855.8k /100.00 503.6k /58.85 471.4k /55.08 504.0k /58.89 442.4k /51.69 545.6k /63.75 443.3k /51.80 855.8k /100.00 503.6k /58.85 471.4k /55.08 504.0k /58.89 442.4k /51.69 545.6k /63.75 443.3k /51.80 0.15
278.3k /100.00 176.2k /63.29 175.9k /63.20 183.8k /66.03 168.8k /60.65 176.3k /63.34 187.5k /67.35 278.3k /100.00 176.2k /63.29 175.9k /63.20 183.8k /66.03 168.8k /60.65 176.3k /63.34 187.5k /67.35 0.15
Table 2. Benchmarking channel pruning criteria on CIFAR10 and CIFAR100 image classification under the scheme of random pruning. 表2。 CIFAR10およびCIFAR100画像分類におけるランダムプルーニング方式に基づくベンチマークチャネルプルーニング基準 0.71
More results are given in the supplementary. 追加でさらなる結果が得られます。 0.62
be pruned and which channels are pruned is decided by the external criteria. プルーニングされ、どのチャンネルがプルーニングされるかは、外部基準によって決定される。 0.54
A range of pruning methods are compared and benchmarked under the scheme of random pruning, including the traditional L1 and L2 norm of the filters (L1, L2), and the recent method based on geometric median (GM) [19], Taylor expansion (TE) [50], KL-divergence importance metric (KL) [45] and empirical sensitivity analysis (ES) [37]. フィルタ(L1, L2)の従来のL1およびL2ノルムや、幾何中央値(GM) [19]、テイラー展開(TE) [50]、KL偏差重要度測定(KL) [45]、経験感度分析(ES) [37]に基づく最近の手法を含む、ランダムプルーニングのスキームの下で、様々なプルーニング手法を比較してベンチマークする。
訳抜け防止モード: ランダムプルーニング(ランダムプルーニング)の手法を用いて,様々なプルーニング手法を比較し,ベンチマークする。 フィルタ(L1, L2 )の伝統的な L1 と L2 ノルムを含む。 幾何中央値 ( GM ) [19 ] に基づく最近の手法 Taylor expansion ( TE ) [ 50 ], KL - divergence importance metric (KL ) [ 45 ] and empirical sensitivity analysis (ES ) [ 37 ] 。
0.88
In addition, the method of pruning from scratch based on slimmable networks [59] is also included. また、スリムブルネットワーク[59]に基づくスクラッチからの刈り取り方法も含んでいる。 0.57
The benchmark results for ImageNet and CIFAR are shown in Table 1 and Table 2, respectively. ImageNetとCIFARのベンチマーク結果は、それぞれ表1と表2に示されている。 0.76
The FLOP metric is relatively fixed. FLOP計量は相対的に固定される。 0.62
Since a threshold T = 0.02 is set, the difference between the target overall pruning ratio and the actual overall pruning ratio is within 2%. 閾値t = 0.02 が設定されるので、目標全体の刈り込み比と実際の全体の刈り取り比との差は2%以内である。 0.69
During the random sampling, it is difficult to fix both FLOPs and the number of parameters. ランダムサンプリングでは、FLOPとパラメータ数の両方を修正することは困難である。 0.72
Thus, the number of parameters of the pruned networks vary. したがって、刈り取られたネットワークのパラメータ数は様々である。 0.81
Several conclusions can be drawn by analyzing the results in Table 1 and Table 2. 表1と表2の結果を分析することで、いくつかの結論を導き出すことができる。
訳抜け防止モード: いくつかの結論を導き出すことができる 表1と表2の結果を分析します。
0.72
I. When comparing different pruning criteria across different networks and datasets under the scheme of random pruning, their performance is close to each other. 私は... 異なるネットワークとデータセットの異なるプルーニング基準をランダムプルーニングのスキームで比較する場合、それらの性能は互いに近い。 0.55
It is quite surprising that the advanced pruning criteria such as KL and ES do not necessarily outperform the naive ones such as L1 and L2 norm. KL や ES のような先進的なプルーニング基準が必ずしも L1 や L2 のノルムのようなネーブな基準より優れているとは限らないことは驚くべきことである。 0.58
II. The number of parameters have significant influence on the accuracy of the pruned network. II。 パラメータの数は、プルーニングされたネットワークの精度に大きな影響を与える。 0.80
When the computational complexity is about the same, pruned networks with more parameters tend to have lower error rate. 計算複雑性がほぼ同じである場合、より多くのパラメータを持つプルーンドネットワークはエラー率を低くする傾向にある。 0.75
III. Considering the above two observations, we conclude that there III。 上記の2つの観測から、我々はそこで結論づける。 0.69
SFP [17] sfp (複数形 sfps) 0.47
GAL-0.5 [39] GAL-0.5[39] 0.32
SSS [23] HRank [38] SSS[23]HRank[38] 0.39
Random Pruning Random Pruning Random Pruning AutoPruner [44] Adapt-DCP [40] ランダムプルーニング ランダムプルーニング ランダムプルーニング オートプルーナー [44]adapt-dcp [40] 0.67
FPGM [19] DCP [67] ThiNet [46] FPGM [19] DCP [67] ThiNet [46] 0.42
MetaPruning [41] メタプラニング[41] 0.83
AutoSlim [58] AutoSlim [58] 0.42
MetaPruning [41] Random Pruning メタプラニング[41]ランダムプラニング 0.65
AMC [18] Adapt-DCP [40] AMC[18] Adapt-DCP [40] 0.42
GAL-0.5 [39] GAL-0.5[39] 0.32
[28] NISP [61] [28] NISP[61] 0.42
Random Pruning ランダムプルーニング 0.64
CaP [47] ENC [25] AMC [18] Hinge [31] KSE [35] FPGM [19] SFP [17] CaP[47] ENC[25] AMC[18] ヒンジ[31] KSE[35] FPGM[19] SFP[17] 0.41
ResNet50, ImageNet ResNet50, ImageNet 0.47
25.39 28.05 28.18 25.02 25.85 25.22 24.87 25.24 24.85 25.17 25.05 27.97 25.39 28.05 28.18 25.02 25.85 25.22 24.87 25.24 24.85 25.17 25.05 27.97 0.21
7.94 9.06 9.21 7.67 8.01 7.69 7.48 7.85 7.70 7.68 7.68 9.01 7.94 9.06 9.21 7.67 8.01 7.69 7.48 7.85 7.70 7.68 7.68 9.01 0.21
100 30 100 480 25 75 120 32 120 90 60 87 100 30 100 480 25 75 120 32 120 90 60 87 0.43
160 150 24.60 24.40 160 150 24.60 24.40 0.34
– – MobileNetV2, ImageNet2012 160 120 120 310 – – MobileNetV2, ImageNet2012 160 120 120 310 0.45
28.80 29.10 29.20 28.55 28.80 29.10 29.20 28.55 0.23
– – – – ResNet56, CIFAR10 – – – – ResNet56, CIFAR10 0.41
6.62 6.94 6.99 6.52 6.78 7.00 8.1 6.31 6.77 6.74 6.65 6.62 6.94 6.99 6.52 6.78 7.00 8.1 6.31 6.77 6.74 6.65 0.21
– – – – – – – – – – – – – – – – – – – – – – 0.42
100 40 – 50 – – – 300 200 200 300 100 40 – 50 – – – 300 200 200 300 0.43
58.2 56.97 56.96 56.23 50.72 50.72 48.99 48.79 47.59 46.5 44.50 44.17 58.2 56.97 56.96 56.23 50.72 50.72 48.99 48.79 47.59 46.5 44.50 44.17 0.21
48.78 80.60 48.78 80.60 0.25
72.33 70.87 70.00 68.92 72.33 70.87 70.00 68.92 0.23
63.40 62.40 56.39 51.03 50.20 50.00 50.00 50.00 48.00 47.4 47.4 63.40 62.40 56.39 51.03 50.20 50.00 50.00 50.00 48.00 47.4 47.4 0.21
– 83.14 61.15 63.33 54.99 54.99 54.12 – 83.14 61.15 63.33 54.99 54.99 54.12 0.32
45.01 48.44 45.01 48.44 0.29
– – – – – – – – – – – – – – – – – – 0.42
88.20 86.30 57.40 55.08 88.20 86.30 57.40 55.08 0.23
48.73 45.27 48.73 45.27 0.25
– – – – – Table 3. – – – – – 表3。 0.41
Benchmarking different channel pruning methods. 異なるチャネルプルーニングメソッドのベンチマーク。 0.64
is no clear winner among the seven compared pruning criteria. 比較刈り取り基準のうち 明確な勝者は ありません。 0.63
IV. Thus, when the pruned networks are fine-tuned for long enough epochs (e g , more than 25 epochs), the benefits of advanced pruning criteria is substituted by the prolonged training. IV。 したがって、プルーニングされたネットワークが十分に長いエポック(例えば25エポック以上)に対して微調整された場合、高度なプルーニング基準の利点は、長期のトレーニングによって置き換えられる。 0.52
V. This means that for both pruning a pre-trained model and pruning from scratch, efficient search of the channel configuration space should be at least one of the major research directions. V. これは、事前訓練されたモデルをプルーニングし、スクラッチからプルーニングする場合、チャネル構成空間の効率的な探索が、少なくとも主要な研究方向の1つであることを意味する。 0.61
6.2. Benchmarking channel pruning methods 6.2. ベンチマークチャネルプルーニング方法 0.37
To further study the status of channel pruning, we incorporate the results of more methods in Table 3. チャネルプルーニングの現状をさらに調査するため,表3にさらに多くの方法の結果を取り入れた。 0.74
Two networks are used to benchmark different methods including ResNet50 for ImageNet and ResNet56 for CIFAR10. 2つのネットワークは、ImageNetのResNet50やCIFAR10のResNet56など、異なる手法のベンチマークに使用されている。
訳抜け防止モード: 2つのネットワークが使用される たとえば、ImageNetのResNet50とCIFAR10のResNet56だ。
0.72
The results are from the original paper. 結果はオリジナルの論文による。 0.68
Note that the number of fine-tuning epochs is also included. 細調整エポックの数も含んでいることに注意。 0.60
This is crucial for comparing different channel pruning methods since the number of training epochs has quite important influence on the accuracy of the final pruned networks. これは、トレーニングエポックの数が最終プルーニングネットワークの精度に大きな影響を与えるため、異なるチャネルプルーニング手法を比較する上で重要である。 0.71
More fine-tuning epochs usually leads to more accurate pruned networks. より微調整されたエポックは通常、より正確な刈り込みネットワークにつながる。 0.51
Ideally, for a fair comparison between different methods, the influence of fine-tuning strategy of the pruning algorithm itself should be decoupled. 理想的には、異なる方法の公正な比較のために、プルーニングアルゴリズム自体の微調整戦略の影響を分離する必要がある。 0.71
That is, the number of fine-tuning epochs should be fixed. つまり、微調整エポックの数を修正する必要がある。 0.58
Yet, this is almost impossible since different methods adopt different training and fine-tuning しかし、異なる方法が異なるトレーニングと微調整を採用するため、これはほぼ不可能である。 0.60
7 7 0.42
英語(論文から抽出)日本語訳スコア
(a) Comparison between 1000 and 20 samples for ResNet18. (a)ResNet18の1000から20のサンプルの比較。 0.74
(b) Random samples vs. error rate in ResNet18. (b)ResNet18におけるランダムサンプルとエラー率 0.85
(c) Epochs vs. error rate in ResNet50. (c)ResNet50におけるEpochs vs.エラー率 0.82
Figure 4. The influence of the random sample size and fine-tuning epochs on the prediction accuracy. 図4。 ランダム標本サイズと微調整時間の影響が予測精度に及ぼす影響 0.70
Experiments done on ImageNet. ImageNetでの実験。 0.73
strategies according to requirements of the methods. 方法の要件に従って戦略を行う。 0.70
In any case, the number of training epochs is still an indicator of the compared algorithms. いずれにしても、トレーニングエポックの数はまだ比較アルゴリズムの指標である。 0.61
When the accuracy of two algorithms is close, the one with fewer fine-tuning epochs is obviously better. 2つのアルゴリズムの精度が近い場合、微調整の少ないアルゴリズムの方が明らかに良い。 0.74
When the fine-tuning epochs of two algorithms are different, we have a tolerance for the accuracy drop of the one with fewer fine-tuning epochs. 2つのアルゴリズムの微調整エポックが異なる場合、微調整エポックが少ないアルゴリズムの精度低下に対する耐性がある。 0.60
We have a couple conclusions from Table 3. 表3から2つの結論が得られます。 0.60
I. On CIFAR10, random pruning performs no worse than any of the compared methods. I. CIFAR10では、ランダムプルーニングは、比較したどの方法よりも悪くない。 0.71
This shows that for this easy case, random pruning could just serve the purpose. これは、この簡単なケースでは、ランダムプルーニングがその目的を果たすことができることを示している。 0.50
II. On ImageNet, compared with earlier channel pruning methods including SFP [17], GAL [39], and SSS [23], random pruning outperforms under fewer fine-tuning epochs and severer pruning ratio. II。 ImageNetでは、SFP[17]、GAL[39]、SSS[23]といった以前のチャネルプルーニング法と比較して、微調整エポックが少なく、より厳しいプルーニング比でランダムプルーニング性能が向上する。
訳抜け防止モード: II。 ImageNetでは、SFP[17 ]を含む以前のチャンネルプルーニング法と比較する。 GAL [39 ], SSS [23 ], ランダムプルーニング性能は, 微調整エポックとより厳しいプルーニング比で低下した。
0.75
III. Random pruning is even comparable with the recent work HRank [38] considering the longer fine-tuning epochs and larger remained model. III。 ランダムプルーニングは、より長い微調整エポックとより大きな残留モデルを考慮して、最近のHRank [38]に匹敵する。 0.70
IV. Compared with advanced searching methods such as MetaPruning [41], random pruning performs a little bit worse. IV。 MetaPruning[41]のような高度な検索手法と比較すると、ランダムプルーニングは少し悪化する。 0.55
Yet, we also need to be aware that the slightly changed baseline network for MetaPruning is already in favor of FLOPs reduction. しかし、MetaPruningのわずかに変更されたベースラインネットワークが既にFLOPの削減を支持していることも認識する必要があります。 0.63
The fine-tuning is also longer. In addition, the potential of random pruning could be fully released as shown in the next subsection. 微調整もより長い。 さらに、次の節で示すように、ランダムプルーニングの可能性を完全に解放することができる。 0.55
V. Compared with methods that only prune the pre-trained networks, overall architecture optimization such as the placement of pooling layers and expansion of maximum network width could bring additional benefits. V. 事前訓練されたネットワークのみを起点とする手法と比較して, プール層配置や最大ネットワーク幅の拡大といった全体的なアーキテクチャ最適化は, さらなるメリットをもたらす可能性がある。 0.70
6.3. Ablation study 6.3. アブレーション研究 0.52
The characteristics of random pruning is ablated. ランダムな刈り取りの特徴はアブレーションされている。 0.56
Influence of the sampling population. In the former experiments, the number of random samples is fixed to 100. 採集個体数の影響。 前者の実験では、ランダムなサンプルの数は100に固定される。 0.71
In Fig 4b, to study the influence of the population size, the number of random samples is increased gradually from 20, 100, 500, to 1000. 図4bでは、個体数の影響を調べるために、ランダムサンプルの数が20,100,500から1000へと徐々に増加する。 0.71
As expected, the Top-1 and Top-5 error drop steadily from 20 samples to 1000 samples. 予想通り、top-1とtop-5のエラーは20のサンプルから1000のサンプルに着実に減少する。 0.64
Meanwhile, the gain of more random sampled does not get saturated. 一方、よりランダムなサンプルの利得は飽和しない。 0.63
For the studied range, the empirical Top-1 error curve is a monotonically decreasing and convex. 実験範囲では、経験的Top-1誤差曲線は単調に減少し凸である。 0.73
This means that the gain of accuracy diminished with increase number of samples. つまり 精度の上昇は サンプル数の増加とともに減少しました 0.53
As shown in Fig 4a, when increasing the number of random samples, both better and worse sub-networks could be sampled, which shows the randomness of random pruning. 図4aに示すように、ランダムサンプルの数を増やすと、より良くも悪くもサブネットワークがサンプリングされ、ランダムプルーニングのランダム性を示す。 0.77
This is acceptable since we are searching for wellperformed samples. 順調なサンプルを探しているので、これは許容できる。 0.54
But from another perspective, this phenomenon also calls for advanced searching methods. しかし、別の観点からは、この現象は高度な探索方法も求めている。 0.64
Influence of fine-tuning epochs. 微調整エポックの影響 0.55
The importance of finetuning epochs is already emphasized in Sec. 6.2. 微調整エポックの重要性は既にSec.6.2で強調されている。 0.52
Here we quantify the influence of fine-tuning epochs by studying ResNet. 本稿ではResNetの研究により微調整エポックの影響を定量化する。 0.59
The result for ResNet-50 is shown in Fig 4c. ResNet-50の結果は図4cで示されています。 0.61
The result for ResNet-18 is shown in the supplementary. ResNet-18の結果は補足で示される。 0.76
When the number of fine-tuning epochs is increased from 25 to 100, the Top-1 and Top-5 error of ResNet-50 drops by 0.75% and 0.4%, respectively. 微調整エポックの数が 25 から 100 に増加すると、Top-1 と Top-5 の ResNet-50 の誤差はそれぞれ 0.75% と 0.4% に減少する。 0.69
This shows the significant influence of fine-tuning epochs. これは微調整時代の大きな影響を示している。 0.60
Again, when benchmarking, the fine-tuning strategy should be considered. ベンチマークでは、微調整戦略を検討する必要がある。 0.53
Analysis of additional computational cost. 追加の計算コストの分析。 0.80
Except finetuning, other additional computational cost for random pruning includes the evaluation of the pruned models. 微調整を除いて、その他のランダムプルーニングの計算コストには、プルーニングモデルの評価が含まれる。 0.62
For pruning pre-trained models, updating the parameters also needs to compute the feature maps, which introduces additional computation. 事前訓練されたモデルのプルーニングには、パラメータの更新も機能マップの計算が必要である。 0.77
The additional computational cost for evaluation could be reduced by taking out a smaller part (say 5000 for ImageNet) of the validation set for evaluation. 評価のための検証セットの小さな部分(例えばImageNetの5000)を取り出すことで、評価のための追加の計算コストを削減できる。 0.83
This is adopted by some works [18]. これはいくつかの作品[18]で採用されている。 0.55
7. Conclusion This work studies the problem of pruning neural network as an unbiased random search for an optimal network architecture. 7.結論 本研究は、最適ネットワークアーキテクチャの非バイアスランダム探索としてニューラルネットワークのプルーニングの問題を研究する。 0.77
The search can be applied both for learning the architecture from scratch as well as applying it to the pretrained model with predefined importance score of the channels. 検索は、スクラッチからアーキテクチャを学ぶだけでなく、チャネルの事前定義された重要度スコアを持つ事前トレーニングされたモデルにも適用することができる。
訳抜け防止モード: 検索は両方とも適用できます アーキテクチャをスクラッチから学ぶ また、チャネルの事前定義された重要度スコアを持つ事前トレーニングされたモデルにも適用する。
0.68
As a result, random pruning is a simple, general and explainable baseline which performs well and can be used as a benchmark to more complex pruning methods. その結果、ランダムプルーニングは単純で汎用的で説明可能なベースラインであり、より複雑なプルーニング手法のベンチマークとして使用することができる。 0.70
Acknowledgement: This work is partially supported by the ETH Z¨urich Fund (OK), the National Natural Science Foundation of China (Grant No. 62176047), and an Amazon AWS grant. Acnowledgement: この研究は部分的には、ETH Z surich Fund (OK)、National Natural Science Foundation of China (Grant No.62176047)、Amazon AWSの助成金によって支援されている。 0.71
8 8 0.42
英語(論文から抽出)日本語訳スコア
References [1] Kamil Adamczewski and Mijung Park. kamil adamczewski と mijung park を参照。 0.46
Dirichlet prunarXiv preprint Dirichlet prunarXiv プレプリント 0.85
ing for neural network compression. ニューラルネットワーク圧縮のためのing。 0.75
arXiv:2011.05985, 2020. arXiv:2011.05985, 2020。 0.63
2 [2] Sajid Anwar, Kyuyeon Hwang, and Wonyong Sung. 2 サジド・アンワー(Sajid Anwar)、クョヨン・フワン(Kuyeon Hwang)、ウォニョン・ソン(Wonyong Sung)。 0.48
Structured pruning of deep convolutional neural networks. 深部畳み込みニューラルネットワークの構造化プルーニング 0.72
ACM Journal on Emerging Technologies in Computing Systems (JETC), 13(3):1–18, 2017. ACM Journal on Emerging Technologies in Computing Systems (JETC) 13(3):1–18, 2017 0.42
2 [3] Cenk Baykal, Lucas Liebenwein, Igor Gilitschenski, Dan Feldman, and Daniela Rus. 2 Cenk Baykal氏、Lucas Liebenwein氏、Igor Gilitschenski氏、Dan Feldman氏、Daniela Rus氏。 0.38
Sipping neural networks: Sensitivity-informed provable pruning of neural networks. sipping neural networks: ニューラルネットワークの感度を損なう証明可能なプルーニング。 0.80
arXiv preprint arXiv:1910.05422, 2019. arXiv preprint arXiv:1910.05422, 2019 0.40
2, 4 [4] Maxim Berman, Leonid Pishchulin, Ning Xu, Matthew B Blaschko, and G´erard Medioni. 2, 4 Maxim Berman氏、Leonid Pishchulin氏、Ning Xu氏、Matthew B Blaschko氏、G ́erard Medioni氏。 0.57
AOWS: Adaptive and optimal network width search with latency constraints. AOWS: 遅延制約のある適応的で最適なネットワーク幅探索。 0.74
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11217–11226, 2020. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 111217–11226, 2020。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 11217-11226、2020年。
0.84
3, 4 [5] Davis Blalock, Jose Javier Gonzalez Ortiz, Jonathan Frankle, and John Guttag. 3, 4 Davis Blalock氏、José Javier Gonzalez Ortiz氏、Jonathan Frankle氏、John Guttag氏。 0.56
What is the state of neural network pruning? ニューラルネットワークのプルーニング状態とは何か? 0.72
arXiv preprint arXiv:2003.03033, 2020. arxiv プレプリント arxiv:2003.03033, 2020。 0.41
2 [6] Ting-Wu Chin, Ari S Morcos, and Diana Marculescu. 2 [6]Ting-Wu Chin、Ari S Morcos、Diana Marculescu。 0.38
PareCO: Pareto-aware channel optimization for slimmable neural networks. pareco: 薄型ニューラルネットワークのためのpareto対応チャネル最適化。 0.68
arXiv preprint arXiv:2007.11752, 2020. arxiv プレプリント arxiv:2007.11752, 2020 0.44
3, 4 [7] Matthieu Courbariaux, Itay Hubara, Daniel Soudry, Ran El-Yaniv, and Yoshua Bengio. 3, 4 [7]Matthieu Courbariaux、Iay Hubara、Daniel Soudry、Ran El-Yaniv、Yoshua Bengio。 0.39
Binarized neural networks: Training deep neural networks with weights and activations constrained to +1 or-1. バイナリニューラルネットワーク:+1または1に制限された重みとアクティベーションを持つディープニューラルネットワークのトレーニング。 0.62
arXiv preprint arXiv:1602.02830, 2016. arXiv preprint arXiv:1602.02830, 2016 0.40
2 [8] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2 8]jia deng、wei dong、richard socher、li-jia li、kai li、li fei-fei。 0.49
ImageNet: A large-scale hierarchical image database. ImageNet: 大規模な階層型イメージデータベース。 0.84
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 248–255. IEEEのコンピュータビジョンとパターン認識に関する会議のProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 248–255。 0.61
IEEE, 2009. 2009年、IEEE。 0.68
6 [9] Emily L Denton, Wojciech Zaremba, Joan Bruna, Yann LeCun, and Rob Fergus. 6 9] Emily L Denton氏、Wojciech Zaremba氏、Joan Bruna氏、Yann LeCun氏、Rob Fergus氏。 0.59
Exploiting linear structure within convolutional networks for efficient evaluation. 畳み込みネットワーク内の線形構造を効率よく評価する。 0.80
In Advances in Neural Information Processing Systems, pages 1269–1277, 2014. ニューラル・インフォメーション・プロセッシング・システムにおける進歩』1269-1277頁、2014年。 0.64
1 [10] Xiaohan Ding, Guiguang Ding, Yuchen Guo, and Jungong Han. 1 [10]Xiaohan Ding、Guiguang Ding、Yuchen Guo、Jungong Han。 0.53
Centripetal SGD for pruning very deep convolutional networks with complicated structure. 複雑な構造を持つ非常に深い畳み込みネットワークを刈り取るためのCentripetal SGD 0.81
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4943–4953, 2019. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 4943–4953, 2019。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 4943-4953、2019年。
0.74
1 [11] Xiaohan Ding, Tianxiang Hao, Jianchao Tan, Ji Liu, Jungong Han, Yuchen Guo, and Guiguang Ding. 1 〔11〕新漢鎮、天江鎮、鑑昌鎮、慈林、順興、有陳広、義広鎮。 0.48
Resrep: Lossless cnn pruning via decoupling remembering and forgetting. resrep: decoupling remembering and forgetingによるロスレスcnnのpruning。 0.72
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4510–4520, 2021. Proceedings of the IEEE/CVF International Conference on Computer Vision, page 4510–4520, 2021。 0.47
1 [12] Jonathan Frankle and Michael Carbin. 1 12]ジョナサン・フランクルとマイケル・カービン 0.52
The lottery ticket hypothesis: Finding sparse, trainable neural networks. 宝くじ仮説: ばらばらで訓練可能なニューラルネットワークを見つけること。 0.58
arXiv preprint arXiv:1803.03635, 2018. arXiv preprint arXiv:1803.03635, 2018 0.40
1, 3, 12 [13] Suyog Gupta, Ankur Agrawal, Kailash Gopalakrishnan, and Pritish Narayanan. 1, 3, 12 [13]スヨグ・グプタ、アンクル・アグラヴァル、カイラーシュ・ゴパラクリシュナン、プリティッシュ・ナラヤナン。 0.39
Deep learning with limited numerical precision. 数値精度に制限のある深層学習。 0.76
In International Conference on Machine Learning, pages 1737–1746, 2015. 機械学習に関する国際会議、1737-1746頁、2015年。 0.72
2 [14] Song Han, Huizi Mao, and William J Dally. 2 [14]Song Han、Huizi Mao、William J Dally。 0.38
Deep compression: Compressing deep neural networks with pruning, In Proceedings trained quantization and Huffman coding. ディープ圧縮: プルーニングでディープニューラルネットワークを圧縮し、In Proceedingsは量子化とHuffmanコーディングを訓練した。 0.66
of International Conference on Learning Representations, 2015. 2015年 学習表現に関する国際会議を開催。 0.85
2 [15] Babak Hassibi and David G Stork. 2 Babak HassibiとDavid G Stork。 0.46
Second order derivatives In Advances for network pruning: Optimal brain surgeon. ネットワークプルーニングにおける第2次誘導体 : 最適な脳外科医 0.76
in Neural Information Processing Systems, pages 164–171, 1993. 神経情報処理システム』164-171頁、1993年。 0.75
2 [16] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2 [16]開明、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.48
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–778, 2016
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 770-778頁、2016年。
0.82
6, 13 [17] Yang He, Guoliang Kang, Xuanyi Dong, Yanwei Fu, and Yi Yang. 6, 13 [17]ヤン・ヘ、グーリョン・カン、クアニー・ドン、ヤンワイ・フー、イ・ヤン。 0.49
Soft filter pruning for accelerating deep convolutional neural networks. 深部畳み込みニューラルネットワークの高速化のためのソフトフィルタプルーニング 0.74
arXiv preprint arXiv:1808.06866, 2018. arXiv preprint arXiv:1808.06866, 2018 0.40
1, 7, 8 [18] Yihui He, Ji Lin, Zhijian Liu, Hanrui Wang, Li-Jia Li, and Song Han. 1, 7, 8 [18]yhui He, Ji Lin, Zhijian Liu, Hanrui Wang, Li-Jia Li, Song Han 0.41
AMC: AutoML for model compression and acceleration on mobile devices. AMC: モバイルデバイス上でのモデル圧縮とアクセラレーションのためのAutoML。 0.77
In Proceeding of the European Conference on Computer Vision, pages 784–800, 2018. 欧州コンピュータビジョン会議(european conference on computer vision)2018年784-800頁。 0.78
1, 2, 3, 7, 8 1, 2, 3, 7, 8 0.42
[19] Yang He, Ping Liu, Ziwei Wang, Zhilan Hu, and Yi Yang. [19]ヤン・ヘ、ピン・リウ、ジヴァイ・ワン、ジラン・フ、イ・ヤン。 0.45
Filter pruning via geometric median for deep convolutional In Proceedings of the IEEE neural networks acceleration. ieeeニューラルネットワーク加速過程における深い畳み込みのための幾何学的中央値によるフィルタプルーニング 0.70
Conference on Computer Vision and Pattern Recognition, pages 4340–4349, 2019. Conference on Computer Vision and Pattern Recognition, page 4340–4349, 2019 0.44
1, 2, 4, 7, 14 1, 2, 4, 7, 14 0.42
[20] Yihui He, Xiangyu Zhang, and Jian Sun. [20]Yihui He、Xiangyu Zhang、Jian Sun。 0.32
Channel pruning for accelerating very deep neural networks. チャネルプルーニングによる超深層ニューラルネットワークの高速化 0.79
In Proceedings of the IEEE International Conference on Computer Vision, pages 1389–1397, 2017. コンピュータビジョンに関するieee国際会議の議事録 1389–1397, 2017 ページ。 0.69
1, 5 [21] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. 1, 5 21]ジェフリー・ヒントン、オリオール・ヴィニールズ、ジェフ・ディーン 0.44
DistillarXiv preprint DistillarXiv プレプリント 0.79
ing the knowledge in a neural network. ニューラルネットワークに知識を注入する。 0.70
arXiv:1503.02531, 2015. 2015年、arxiv:1503.02531。 0.35
1, 2 [22] Zhongzhan Huang, Wenqi Shao, Xinjiang Wang, Liang Lin, and Ping Luo. 1, 2 [22] 張陽、ウェンチ・シャオ、新江王、梁林、平ルー。 0.42
Rethinking the pruning criteria for convoluIn Advances in Neural Information tional neural network. ニューラル・インフォメーション・オプショナル・ニューラル・ネットワークにおけるコンボリューInのプルーニング基準の再考 0.46
Processing Systems, 2021. 処理システム 2021年 0.62
3, 12 [23] Zehao Huang and Naiyan Wang. 3, 12 [23]Zehao HuangとNaiyan Wang。 0.59
Data-driven sparse structure selection for deep neural networks. ディープニューラルネットワークのためのデータ駆動スパース構造選択 0.76
In Proceeding of the European Conference on Computer Vision, pages 304–320, 2018. 欧州コンピュータビジョン会議(european conference on computer vision)2018年3月304-320頁。 0.75
1, 7, 8 [24] Max Jaderberg, Andrea Vedaldi, and Andrew Zisserman. 1, 7, 8 マックス・ジャダーバーグ、アンドレア・ヴェダルディ、アンドリュー・ジッサーマン。 0.45
Speeding up convolutional neural networks with low rank In Proceedings of the British Machine Vision expansions. 低ランクの畳み込みニューラルネットワークをスピードアップする British Machine Visionの拡張の成果。 0.72
Conference, 2014. 2 2014年度大会。 2 0.54
[25] Hyeji Kim, Muhammad Umar Karim Khan, and Chong-Min Kyung. 25]キム・ヘジ、ムハンマド・ウマル・カリム・カーン、チョンミン・キュン 0.49
Efficient neural network compression. 効率的なニューラルネットワーク圧縮。 0.74
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12569–12577, 2019. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 12569–12577, 2019。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 12569-12577、2019年。
0.80
7 [26] Alex Krizhevsky and Geoffrey Hinton. 7 Alex Krizhevsky氏とGeoffrey Hinton氏。 0.36
Learning multiple layers of features from tiny images. 小さな画像から複数の機能層を学ぶ。 0.80
Technical report, Citeseer, 2009. 専門誌、2009年。 0.28
6 [27] Yann LeCun, John S Denker, and Sara A Solla. 6 27] ヤン・レコン、ジョン・s・デンカー、サラ・ア・ソラ 0.48
Optimal brain damage. In Advances in Neural Information Processing Systems, pages 598–605, 1990. 最適な脳損傷。 ニューラル情報処理システムの進歩により、1990年598-605頁。 0.57
2 9 2 9 0.42
英語(論文から抽出)日本語訳スコア
[28] Hao Li, Asim Kadav, Igor Durdanovic, Hanan Samet, and Hans Peter Graf. Hao Li, Asim Kadav, Igor Durdanovic, Hanan Samet, Hans Peter Graf. [28] Hao Li, Asim Kadav, Igor Durdanovic, Hans Peter Graf. 0.34
Pruning filters for efficient convnets. 効率的なコンブネットのためのプルーニングフィルタ。 0.56
arXiv preprint arXiv:1608.08710, 2016. arxiv プレプリント arxiv:1608.08710, 2016 0.41
7 [29] Tianhong Li, Jianguo Li, Zhuang Liu, and Changshui Zhang. 7 [29]Tianhong Li、Jianguo Li、Zhuang Liu、Changshui Zhang。 0.37
Few sample knowledge distillation for efficient network compression. 効率的なネットワーク圧縮のためのサンプル知識蒸留 0.82
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14639– 14647, 2020. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 14639–14647, 2020。 0.46
5 [30] Yawei Li, He Chen, Zhaopeng Cui, Radu Timofte, Marc Pollefeys, Gregory Chirikjian, and Luc Van Gool. 5 Yawei Li, He Chen, Zhaopeng Cui, Radu Timofte, Marc Pollefeys, Gregory Chirikjian, そしてLuc Van Gool。
訳抜け防止モード: 5 《30歳] 李弥兵衛, チェン, zhaopeng cui, radu timofte氏、marc pollefeys氏、gregory chirikjian氏、luc van gool氏。
0.50
Towards efficient graph convolutional networks for point cloud handling. ポイントクラウド処理のための効率的なグラフ畳み込みネットワークを目指して 0.66
In Proceedings of the IEEE International Conference on Computer Vision, pages 2144–2153, 2021. Proceedings of the IEEE International Conference on Computer Vision, page 2144–2153, 2021。 0.42
1 [31] Yawei Li, Shuhang Gu, Christoph Mayer, Luc Van Gool, and Radu Timofte. 1 31] ヤウェイ・リー、シュハング、クリストフ・メイヤー、ルーク・ヴァン・グール、ラドゥ・ティモフテ。 0.39
Group sparsity: The hinge between filter pruning and decomposition for network compression. Group sparsity: ネットワーク圧縮のためのフィルタプルーニングと分解の間のヒンジ。 0.88
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020. The Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020 0.37
1, 2, 3, 7 1, 2, 3, 7 0.43
[32] Yawei Li, Shuhang Gu, Luc Van Gool, and Radu Timofte. 32] 李弥兵衛, 周湖, ルツ・ヴァン・グール, ラドゥ・ティモフテ。 0.40
Learning filter basis for convolutional neural network compression. 畳み込みニューラルネットワーク圧縮のための学習フィルタベース 0.78
In Proceedings of the IEEE International Conference on Computer Vision, pages 5623–5632, 2019. In Proceedings of the IEEE International Conference on Computer Vision, page 5623–5632, 2019。 0.45
1, 2 [33] Yawei Li, Shuhang Gu, Kai Zhang, Luc Van Gool, and Radu Timofte. 1, 2 [33] 李弥兵衛、李周漢、慶張、ルツ・ファン・グール、ラドゥ・ティモフテ 0.44
DHP: Differentiable meta pruning via hypernetworks. DHP: ハイパーネットワークによる差別化可能なメタプルーニング。 0.61
In Proceeding of the European Conference on Computer Vision, pages 608–624. 欧州コンピュータビジョン会議 (european conference on computer vision) の608-624頁。 0.76
Springer, 2020. スプリンガー、2020年。 0.59
1, 3, 4 [34] Yawei Li, Wen Li, Martin Danelljan, Kai Zhang, Shuhang Gu, Luc Van Gool, and Radu Timofte. 1, 3, 4 [34] Yawei Li, Wen Li, Martin Danelljan, Kai Zhang, Shuhang Gu, Luc Van Gool, Radu Timofte。
訳抜け防止モード: 1, 3, 4 34 ] ヤウェイ・リー ウェン・リー マーティン・ダネルジャン kai zhang氏、shuhang gu氏、luc van gool氏、radu timofte氏。
0.49
The heterogeneity hypothesis: Finding layer-wise differentiated network arIn Proceedings of the IEEE/CVF Conference chitectures. ヘテロジニティ仮説: IEEE/CVF会議キテクチュアの階層的に分化したネットワークarInプロセッシングを見つける。 0.59
on Computer Vision and Pattern Recognition, pages 2144– 2153, 2021. コンピュータビジョンとパターン認識について、2144-2153, 2021頁。 0.76
2, 13 [35] Yuchao Li, Shaohui Lin, Baochang Zhang, Jianzhuang Liu, David Doermann, Yongjian Wu, Feiyue Huang, and Rongrong Ji. 2, 13 [35] 李ユチャオ・リン・シャヒイ・リン・バオチャン・チャン・ユ・ジャンジュン・リウ・ダビッド・ドーマン・ヨンジャン・ウー・ファイユ・フアン・ロングロング・ジ
訳抜け防止モード: 2, 13 [35 ]ユチャオ・リー、シャオホイ・リン、バオチャン・チャン、 Jianzhuang Liu, David Doermann, Yongjian Wu, Feiyue Huang とRongrong Ji。
0.77
Exploiting kernel sparsity and entropy for interIn Proceedings of the IEEE pretable CNN compression. IEEE予測CNN圧縮のInterIn Proceedingsのためのカーネルの間隔とエントロピーの爆発 0.70
Conference on Computer Vision and Pattern Recognition, 2019. 2019年、コンピュータビジョンとパターン認識に関する会議。 0.85
7 [36] Yuhang Li, Feng Zhu, Ruihao Gong, Mingzhu Shen, Xin Dong, Fengwei Yu, Shaoqing Lu, and Shi Gu. 7 [36]ユハン・リー、フェン・ジュ、ルイハオ・ゴン、ミンジュ・シェン、ジン・ドン、フェンウェイ・ユ、シャオキー・ル、シグ 0.44
Mixmix: All you need for data-free compression are feature and data mixing. Mixmix: データフリー圧縮に必要なのは、機能とデータミキシングだけです。 0.78
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4410–4419, 2021. Proceedings of the IEEE/CVF International Conference on Computer Vision, page 4410–4419, 2021。 0.47
1 [37] Lucas Liebenwein, Cenk Baykal, Harry Lang, Dan Feldman, and Daniela Rus. 1 [37]Lucas Liebenwein、Cenk Baykal、Harry Lang、Dan Feldman、Daniela Rus。 0.38
Provable filter pruning for efficient neural networks. 効率的なニューラルネットワークのための確率的フィルタプルーニング 0.66
arXiv preprint arXiv:1911.07412, 2019. arXiv preprint arXiv:1911.07412, 2019 0.41
1, 4, 7, 14 1, 4, 7, 14 0.42
[38] Mingbao Lin, Rongrong Ji, Yan Wang, Yichen Zhang, Baochang Zhang, Yonghong Tian, and Ling Shao. [38]ミンバオ・リン、ロングロング・ジ、ヤン・ワン、イチェン・チャン、バオチャン・チャン、ヨン・チアン、リン・シャオ
訳抜け防止モード: [38]ミンバオ・リン、ロングロング・ジ、ヤン・ワン yichen zhang氏、baochang zhang氏、yongong tian氏、ling shao氏。
0.62
HRank: Filter pruning using high-rank feature map. HRank: ハイランクな特徴マップを使用したフィルタプルーニング。 0.65
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1529–1538, 2020. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 1529–1538, 2020。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 1529-1538頁、2020年。
0.83
1, 2, 7, 8 1, 2, 7, 8 0.43
[39] Shaohui Lin, Rongrong Ji, Chenqian Yan, Baochang Zhang, Liujuan Cao, Qixiang Ye, Feiyue Huang, and David Doermann. [39]Shaohui Lin、Rongrong Ji、Chenqian Yan、Baochang Zhang、Liujuan Cao、Qixiang Ye、Feiyue Huang、David Doermann。 0.69
Towards optimal structured cnn pruning via generative adversarial learning. 生成逆学習による最適構造cnnプルーニングに向けて 0.73
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2790–2799, 2019. ieee conference on computer vision and pattern recognition(ieee conference on computer vision and pattern recognition)の議事録では、2019年版2790-2799頁が掲載されている。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 2790-2799頁、2019年。
0.80
1, 2, 7, 8 1, 2, 7, 8 0.43
[40] Jing Liu, Bohan Zhuang, Zhuangwei Zhuang, Yong Guo, Junzhou Huang, Jinhui Zhu, and Mingkui Tan. [40]ジン・リ、ブーハン・ジュン、チャン・ジュン、ヨン・グオ、順州・フアン、ジンホイ・ジュン、ミンクイ・タン。
訳抜け防止モード: 40]jing liu, bohan zhuang, zhuangwei zhuang ヨン・グオ、ジュン・フアン、ジン・ジュ、ミンクイ・タン。
0.57
Discrimination-aware network pruning for deep model compression. 深部モデル圧縮のための識別型ネットワークプルーニング 0.75
arXiv preprint arXiv:2001.01050, 2020. arXiv preprint arXiv:2001.01050, 2020 0.40
1, 7 [41] Zechun Liu, Haoyuan Mu, Xiangyu Zhang, Zichao Guo, Xin Yang, Tim Kwang-Ting Cheng, and Jian Sun. 1, 7 四十四 世忠利、羽生庵、Xiangyu Zhang、Zichao Guo、Xin Yang、Tim Kwang-Ting Cheng、Jian Sun。
訳抜け防止モード: 1, 7 【41年】世忠林、羽生庵、Xiangyu Zhang、 Zichao Guo, Xin Yang, Tim Kwang - Ting Cheng, とJian Sun。
0.57
MetaPruning: Meta learning for automatic neural network channel prunIn Proceedings of the IEEE International Conference ing. on Computer Vision, 2019. MetaPruning: 自動ニューラルネットワークチャネルのためのメタ学習 IEEE International Conference ing. on Computer Vision, 2019の成果。 0.79
1, 2, 3, 7, 8, 13 1, 2, 3, 7, 8, 13 0.42
[42] Zhuang Liu, Mingjie Sun, Tinghui Zhou, Gao Huang, and Trevor Darrell. 《42] 朱陽, 明江サン, チンギ・周, ガオ・フアン, トレヴァー・ダレル》. 0.57
Rethinking the value of network pruning. ネットワークプルーニングの価値を再考する。 0.73
In Proceedings of International Conference on Learning Representations, 2019. 平成19年(2019年)、第1回国際大会を開催。 0.44
1, 3, 12 [43] Zechun Liu, Xiangyu Zhang, Zhiqiang Shen, Zhe Li, Yichen Wei, Kwang-Ting Cheng, and Jian Sun. 1, 3, 12 43]ゼチュン・リウ、チャン・チャン、ジキョン・シェン、ジ・リー、イッチェン・ウェイ、クァン・ティン・チョン、ジャン・サン
訳抜け防止モード: 1, 3, 12 43]ゼチュン・リウ、チャン・チャン、ジキョン・シェン、 zhe li, yichen wei, kwang - ting cheng, そしてjian sun。
0.51
Joint multidimension pruning. 共同マルチディメンションプルーニング。 0.56
arXiv preprint arXiv:2005.08931, 2020. arxiv プレプリント arxiv:2005.08931, 2020 0.45
1, 3 [44] Jian-Hao Luo and Jianxin Wu. 1, 3 [44]Jian-Hao LuoとJianxin Wu。 0.43
AutoPruner: An end-to-end trainable filter pruning method for efficient deep model inference. AutoPruner: 効率的な深層モデル推論のためのエンドツーエンドのトレーニング可能なフィルタプルーニング手法。 0.62
Pattern Recognition, page 107461, 2020. パターン認識』107461頁、2020年。 0.74
7 [45] Jian-Hao Luo and Jianxin Wu. 7 [45]Jian-Hao LuoとJianxin Wu。 0.43
Neural network pruning with In Proceedings of residual-connections and limited-data. 残差接続と限られたデータによるニューラルネットワークのプルーニング 0.81
the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1458–1467, 2020. IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 1458–1467, 2020 0.46
1, 2, 4, 7, 14 1, 2, 4, 7, 14 0.42
[46] Jian-Hao Luo, Jianxin Wu, and Weiyao Lin. [46]Jian-Hao Luo、Jianxin Wu、Weyao Lin 0.32
Thinet: A filter level pruning method for deep neural network compression. thinet: ディープニューラルネットワーク圧縮のためのフィルタレベルのプルーニング方法。 0.75
In Proceedings of the IEEE international conference on computer vision, pages 5058–5066, 2017. IEEEのコンピュータビジョン国際会議Proceedings of the IEEE International Conference on computer vision, page 5058–5066, 2017 0.78
1, 2, 5, 7 1, 2, 5, 7 0.85
[47] Breton Minnehan and Andreas Savakis. ブレトン・ミネハンとアンドレアス・サヴァキス。 0.33
Cascaded projection: End-to-end network compression and acceleration. カスケードプロジェクション: エンドツーエンドのネットワーク圧縮とアクセラレーション。 0.68
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10715–10724, 2019. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 10715–10724, 2019。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 10715-10724頁、2019年。
0.84
7 [48] Deepak Mittal, Shweta Bhardwaj, Mitesh M Khapra, and Balaraman Ravindran. 7[48] Deepak Mittal, Shweta Bhardwaj, Mitesh M Khapra, Balaraman Ravindran。 0.36
Recovering from random pruning: On the plasticity of deep convolutional neural networks. ランダムプルーニングから回復する:深部畳み込みニューラルネットワークの可塑性について 0.77
In Proceedings of the IEEE Winter Conference on Applications of Computer Vision, pages 848–857. Proceedings of the IEEE Winter Conference on Applications of Computer Vision, page 848–857。 0.42
IEEE, 2018. 2018年、IEEE。 0.52
1, 3 [49] Dmitry Molchanov, Arsenii Ashukha, and Dmitry Vetrov. 1, 3 [49] ドミトリー・モルチャノフ、アルセニイ・アシュカ、ドミトリー・ヴェトロフ 0.37
Variational dropout sparsifies deep neural networks. 変動的ドロップアウトはディープニューラルネットワークをスパースする。 0.55
arXiv preprint arXiv:1701.05369, 2017. arxiv プレプリント arxiv:1701.05369, 2017 0.42
2 [50] Pavlo Molchanov, Arun Mallya, Stephen Tyree, Iuri Frosio, Importance estimation for neural network and Jan Kautz. 2 Pavlo Molchanov氏、Arun Mallya氏、Stephen Tyree氏、Iuri Frosio氏、ニューラルネットワークの重要度推定とJan Kautz氏。 0.57
pruning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 11264–11272, 2019. 刈り取り。 IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 111264–11272, 2019。
訳抜け防止モード: 刈り取り。 IEEE Conference on Computer Vision and Pattern Recognition に参加して ページ11264–11272, 2019。
0.66
1, 2, 3, 4, 7, 14 1, 2, 3, 4, 7, 14 0.42
[51] Niv Nayman, Asaf Noy, Tal Ridnik, Itamar Friedman, Rong Jin, and Lihi Zelnik. Niv Nayman, Asaf Noy, Tal Ridnik, Itamar Friedman, Rong Jin, Lihi Zelnik。 0.30
Xnas: Neural architecture search with expert advice. Xnas: 専門的なアドバイスによるニューラルアーキテクチャ検索。 0.72
In Advances in Neural Information Processing Systems, pages 1977–1987, 2019. ニューラル・インフォメーション・プロセッシング・システムズ(neural information processing systems, 1977-1987, 2019)の略。 0.62
2 [52] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer. 2 [52]Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, Adam Lerer
訳抜け防止モード: 2 [52 ]Adam Paszke,Sam Gross,Soumith Chintala, グレゴリー・チャン、エドワード・ヤン、ザカリー・デヴィト、ゼミング・リン Alban Desmaison、Luca Antiga、Adam Lerer。
0.53
Automatic differentiation in PyTorch. PyTorchにおける自動分化 0.81
2017. 6 [53] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. 2017. 6 Mark Sandler氏、Andrew Howard氏、Menglong Zhu氏、Andrey Zhmoginov氏、Liang-Chieh Chen氏。 0.40
MobileNetV2: Inverted residuals and linear bottlenecks. MobileNetV2: 反転残差と線形ボトルネック。 0.76
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4510–4520, 2018. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 4510–4520, 2018。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 4510-4520頁、2018年。
0.83
6, 13 10 6, 13 10 0.43
英語(論文から抽出)日本語訳スコア
[54] Karen Simonyan and Andrew Zisserman. カレン・シモンヤンとアンドリュー・ジッサーマン。 0.50
Very deep convolutional networks for large-scale image recognition. 大規模画像認識のための深層畳み込みネットワーク 0.78
arXiv preprint arXiv:1409.1556, 2014. arxiv プレプリント arxiv:1409.1556, 2014 0.45
6 [55] Frederick Tung and Greg Mori. 6 55]フレデリック・タングとグレッグ・モリ 0.45
Similarity-preservin g knowlIn Proceedings of the IEEE Conference edge distillation. 類似性保存ノウル IEEE Conferenceエッジ蒸留の証明 0.73
on Computer Vision and Pattern Recognition, pages 1365– 1374, 2019. コンピュータビジョンとパターン認識について、1365-1374, 2019頁。 0.79
2 [56] Kuan Wang, Zhijian Liu, Yujun Lin, Ji Lin, and Song Han. 2 [56]クアン・ワン、ジアン・リュー、ユジュン・リン、ジリン、ソン・ハン。 0.50
HAQ: Hardware-aware automated quantization with mixed precision. HAQ: ハードウェアを意識した自動量子化。 0.70
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8612–8620, 2019. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 8612–8620, 2019。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 8612-8620、2019年。
0.76
1 [57] Jianbo Ye, Xin Lu, Zhe Lin, and James Z Wang. 1 [57]Jianbo Ye、Xin Lu、Zhe Lin、James Z Wang。 0.39
Rethinking the smaller-norm-less-in formative assumption in channel In Proceedings of Internapruning of convolution layers. 畳み込み層のインテナプラニング手続きにおけるチャネルのノルムなしインフォーマティブな仮定の再検討 0.57
tional Conference on Learning Representations, 2018. 2018年 学習表現に関する国際会議。 0.71
1, 2, 3, 4 1, 2, 3, 4 0.43
[58] Jiahui Yu and Thomas Huang. [58]Jiahui YuとThomas Huang。 0.79
AutoSlim: Towards oneshot architecture search for channel numbers. AutoSlim: チャネル番号をワンショットで検索する。 0.64
arXiv preprint arXiv:1903.11728, 2019. arXiv preprint arXiv:1903.11728, 2019 0.40
1, 7, 13 [59] Jiahui Yu and Thomas S Huang. 1, 7, 13 [59]Jiahui YuとThomas S Huang。 0.60
Universally slimmable netIn Proceedings works and improved training techniques. 普遍的にスリムなnetIn Proceedingsの作業とトレーニング技術の改善。 0.61
of the IEEE International Conference on Computer Vision, pages 1803–1811, 2019. IEEE International Conference on Computer Vision, page 1803–1811, 2019。 0.40
3, 4, 7 [60] Jiahui Yu, Linjie Yang, Ning Xu, Jianchao Yang, and Thomas Huang. 3, 4, 7 60]jiahui yu、linjie yang、ning xu、jianchao yang、thomas huang。 0.45
Slimmable neural networks. スリムなニューラルネットワーク。 0.69
arXiv preprint arXiv:1812.08928, 2018. arXiv preprint arXiv:1812.08928, 2018 0.40
3, 5, 13 [61] Ruichi Yu, Ang Li, Chun-Fu Chen, Jui-Hsin Lai, Vlad I Morariu, Xintong Han, Mingfei Gao, Ching-Yung Lin, and Larry S Davis. 3, 5, 13 [61]有一、安理、春風陳、ジュイ・ヒン・ライ、ヴラド・イ・モラリウ、新漢、ミンフェイ・ガオ、チン・ユング・リン、ラリー・s・デイビス
訳抜け防止モード: 3, 5, 13 【61年】ルーイイユ、アン・リー、チュン-フー・チェン Jui - Hsin Lai, Vlad I Morariu, Xintong Han Mingfei Gao, Ching - Yung Lin,およびLarry S Davis。
0.63
NISP: Pruning networks using neuron importance score propagation. nisp: ニューロンの重要度スコアを用いた刈り込みネットワーク。 0.68
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9194–9203, 2018. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 9194–9203, 2018。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 9194-9203、2018年。
0.76
1, 7 [62] Sixing Yu, Arya Mazaheri, and Ali Jannesari. 1, 7 [62]Sixing Yu、Arya Mazaheri、Ali Jannesari。 0.36
Auto graph encoder-decoder for neural network pruning. ニューラルネットワークのプルーニングのためのオートグラフエンコーダデコーダ 0.67
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6362–6372, 2021. ieee/cvf国際コンピュータビジョン会議の議事録には、6362-6372, 2021ページがある。 0.63
1 [63] Xiyu Yu, Tongliang Liu, Xinchao Wang, and Dacheng Tao. 1 [63]Xiyu Yu、Tongliang Liu、Xinchao Wang、Dacheng Tao。 0.37
On compressing deep models by low rank and sparse decomposition. 低ランクとスパース分解による深層モデル圧縮について 0.76
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7370–7379, 2017. ieee conference on computer vision and pattern recognitionの議事録には、2017年の7370-7379ページがある。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 7370-7379、2017年。
0.78
2 [64] Xiangyu Zhang, Jianhua Zou, Kaiming He, and Jian Sun. 2 [64]チャン・チャン、ジャンワ・ズー、カイミング・ヒ、ジャン・サン 0.43
Accelerating very deep convolutional networks for classification and detection. 分類と検出のための非常に深い畳み込みネットワークを加速する。 0.65
IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(10):1943–1955, 2015. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(10): 1943–1955, 2015 0.46
1, 2 [65] Yanfu Zhang, Shangqian Gao, and Heng Huang. 1, 2 [65]ヤンフ・チャン、シャンキアン・ガオ、ヘン・フン 0.40
Exploration and estimation for model compression. モデル圧縮の探索と推定。 0.71
In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 487–496, 2021. ieee/cvf国際コンピュータビジョン会議の議事録487-496, 2021頁。 0.67
1 [66] Chenzhuo Zhu, Song Han, Huizi Mao, and William J arXiv preprint 1 [66] チェンツフ・ズー、ソン・ハン、ホイジ・マオ、ウィリアム・j・アルクシヴのプレプリント 0.49
Trained ternary quantization. 訓練された三元量子化 0.41
Dally. arXiv:1612.01064, 2016. ダリー arxiv:1612.01064、2016年。 0.40
1 [67] Zhuangwei Zhuang, Mingkui Tan, Bohan Zhuang, Jing Liu, Yong Guo, Qingyao Wu, Junzhou Huang, and Jinhui Zhu. 1 [67]広東省、明北省、広州省、広州省、広州省、広州省、広州省、広州省、広州省。 0.40
Discrimination-aware channel pruning for deep neural networks. ディープニューラルネットワークのための識別対応チャネルプルーニング 0.68
In Advances in Neural Information Processing Systems, pages 875–886, 2018. ニューラル情報処理システムの進歩により、2018年875-886頁。 0.72
1, 2, 7 11 1, 2, 7 11 0.64
英語(論文から抽出)日本語訳スコア
Revisiting Random Channel Pruning for ランダムチャネルプルーニングの再検討 0.72
Neural Network Compression: ニューラルネットワークの圧縮: 0.88
Supplementary Material In this supplementary material, we first explain in detail the difference between this work and the previous works. 補足材料 本補足資料では,本作品と先行作との相違について詳細に説明する。 0.66
Then we provide a justification of our statement in the main paper “the performance of the channel pruned network is upper bounded by the original network”. そこで本論文では,「チャネル切断ネットワークの性能は,元のネットワークによって上限づけられている」という主張を正当化する。 0.80
The we show how residual blocks with skip connections are pruned in Sec. スキップ接続のある残差ブロックがsecでどのように刈り取られているかを示す。 0.52
C. Finally, more experimental results are given in Sec. C. 最後に、より実験的な結果がSecで与えられる。 0.60
D. A. Difference with Other Works D.A. 他の作品との違い 0.68
In the main paper, we explained the main difference between our work and [22,42]. 本論文では,本研究と [22,42] の主な違いについて解説した。 0.67
In this supplementary, we provide a detailed comparison between our work and [22, 42]. 本補足では, 作業と[22, 42]の詳細な比較について述べる。 0.73
Difference with [42]: Our work is different from [42] in the following aspects. 42] との違い: 私たちの作品は、以下の点で [42] とは異なる。 0.84
1) Aim. The aim of [42] is to identify the value of network pruning as discovering the network architecture whereas our aim is to propose random pruning as a neutral baseline to compare different pruning methods. 1) 狙い。 42]の目的は,ネットワークプルーニングの価値をネットワークアーキテクチャの発見として同定することであり,一方,ネットワークプルーニングの手法を比較するために,中立的なベースラインとしてランダムプルーニングを提案することである。 0.64
2) Method. How to select the pruning ratio is not thoroughly investigated in [42] while our work uses random pruning. 2)方法。 我々の研究はランダムプルーニングを用いており、[42]ではプルーニング比の選定方法が十分に研究されていない。 0.46
3) Empirical study. The empirical study in [42] is mostly done pairwise by comparing a network resulting from a pruning algorithm and the one trained from scratch. 3) 実証研究。 42]における実証的研究は、プルーニングアルゴリズムによるネットワークと、スクラッチからトレーニングされたネットワークを比較して行われた。 0.72
Comparison between different pruning criteria is not done. 異なる刈り取り基準の比較は行われていない。 0.74
Our work thoroughly compares 6 pruning criteria and 1 architecture search method. 本研究は,6つのプルーニング基準と1つのアーキテクチャ探索手法を徹底的に比較した。 0.47
Difference with [22]: Our work is different from [22] in the following aspects. 22] との違い: 私たちの仕事は、以下の点で [22] とは異なる。 0.88
1) Perspective. The analysis in [22] is conducted on single layers while our work evaluates the overall network performance. 1)展望。 本研究はネットワーク全体の性能を評価する一方で, [22] における解析を単一層で行う。 0.73
2) Conclusion. The theoretical and empirical analysis in [22] mainly support the similarity between norm based pruning criteria. 2)結論。 22]における理論的および経験的分析は主にノルムベースのプルーニング基準の類似性を支持する。 0.56
Yet, the empirical study does not support the similarity between importance-based, BNbased, and activation-based pruning criteria. しかし、実証的研究は、重要性に基づく、BNに基づく、およびアクティベーションに基づくプルーニング基準の類似性をサポートしない。
訳抜け防止モード: しかし、実証研究は重要性の類似性を支持していない -ベース、BNベース、アクティベーション ベースプルーニング基準
0.68
Our study discovers comparable performances between normbased, importance-based, sensitivity-based, and search based methods. 本研究は,ノルムベース,重要度ベース,感度ベース,検索ベースとを比較検討する。 0.62
3) Enlightenment. The study in [22] “guides and motivates the researchers to design more reasonable criteria” while our study finds out that advanced pruning criteria behaves just comparable with the naive L1/L2 norm “calls for an optimized sampling method that improves the search efficiency”. 3)悟り。 22]の研究では、高度な刈り取り基準は「検索効率を向上させる最適化されたサンプリング方法を呼び出す」というナイーブなl1/l2基準に匹敵する振る舞うことが判明しています。
訳抜け防止モード: 3)悟り。 研究者のガイドとモチベーションに関する研究 より合理的な基準を設計する」 しかし,本研究では,従来のL1/L2ノルムと同等に動作し,探索効率を向上する最適化されたサンプリング手法が求められている。
0.69
Criterion Error (%) Error (%) 基準 エラー(%) エラー(%) 0.69
Top-1 Top-5 FLOPs [G] / Ratio (%) トップ1 トップ5 FLOPs [G] / Ratio (%) 0.61
Params / Ratio (%) params (複数形 paramss) 0.43
VGG, CIFAR10 0.58 0.69 0.67 0.52 0.61 0.64 0.66 VGG, CIFAR10 0.58 0.69 0.67 0.52 0.61 0.66 0.28
313.80 /100.00 160.50 /51.15 150.60 /47.99 154.60 /49.27 157.00 /50.03 157.20 /50.10 161.50 /51.47 313.80 /100.00 160.50 /51.15 150.60 /47.99 154.60 /49.27 157.00 /50.03 157.20 /50.10 161.50 /51.47 0.18
14.73M /100.00 5.05M /34.32 6.20M /42.11 4.13M /28.04 5.84M /39.63 7.06M /47.90 6.52M /44.26 14.73M /100.00 5.05M /34.32 6.20M /42.11 4.13M /28.04 5.84M /39.63 7.06M /47.90 6.52M /44.26 0.15
ResNet20, CIFAR10 ResNet20, CIFAR10 0.39
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
Baseline L1 L2 GM GW ES KL ベースライン L1 L2 GM GW ES KL 0.59
Baseline L1 L2 GM TE ES KL ベースライン L1 L2 GM TE ES KL 0.59
5.67 6.1 6.06 5.99 6.51 6.21 6.19 5.67 6.1 6.06 5.99 6.51 6.21 6.19 0.21
7.48 9.03 8.65 8.69 8.96 8.5 8.77 7.48 9.03 8.65 8.69 8.96 8.5 8.77 0.21
5.58 6.72 6.52 6.39 6.86 6.59 7.12 5.58 6.72 6.52 6.39 6.86 6.59 7.12 0.21
31.53 33.41 33.39 33.32 34.24 33.81 33.32 31.53 33.41 33.39 33.32 34.24 33.81 33.32 0.21
27.59 30.15 29.48 29.2 29.01 29.49 29.23 27.59 30.15 29.48 29.2 29.01 29.49 29.23 0.21
0.61 0.48 0.55 0.6 0.46 0.63 0.46 0.61 0.48 0.55 0.6 0.46 0.63 0.46 0.21
0.26 0.79 0.76 0.77 0.59 0.67 0.67 0.26 0.79 0.76 0.77 0.59 0.67 0.67 0.21
9.87 10.42 10.62 10.35 10.92 10.13 10.62 9.87 10.42 10.62 10.35 10.92 10.13 10.62 0.21
9.24 9.34 9.43 9.35 9.33 9.16 9.3 9.24 9.34 9.43 9.35 9.33 9.16 9.3 0.21
41.20 /100.00 20.90 /50.73 20.60 /50.00 20.90 /50.73 20.90 /50.73 25.60 /62.14 20.10 /48.79 41.20 /100.00 20.90 /50.73 20.60 /50.00 20.90 /50.73 20.90 /50.73 25.60 /62.14 20.10 /48.79 0.18
126.80 /100.00 63.60 /50.16 64.70 /51.03 65.40 /51.58 65.70 /51.81 65.80 /51.89 65.20 /51.42 126.80 /100.00 63.60 /50.16 64.70 /51.03 65.40 /51.58 65.70 /51.81 65.80 /51.89 65.20 /51.42 0.18
41.20 /100.00 20.80 /50.49 21.00 /50.97 20.60 /50.00 20.00 /48.54 21.00 /50.97 21.20 /51.46 41.20 /100.00 20.80 /50.49 21.00 /50.97 20.60 /50.00 20.00 /48.54 21.00 /50.97 21.20 /51.46 0.18
126.80 /100.00 63.20 /49.84 65.80 /51.89 62.30 /49.13 65.50 /51.66 64.20 /50.63 65.10 /51.34 126.80 /100.00 63.20 /49.84 65.80 /51.89 62.30 /49.13 65.50 /51.66 64.20 /50.63 65.10 /51.34 0.18
272.5k /100.00 170.1k /62.43 169.9k /62.37 188.9k /69.31 164.1k /60.23 207.8k /76.24 165.2k /60.64 272.5k /100.00 170.1k /62.43 169.9k /62.37 188.9k /69.31 164.1k /60.23 207.8k /76.24 165.2k /60.64 0.31
855.8k /100.00 503.6k /58.85 471.4k /55.08 504.0k /58.89 442.4k /51.69 545.6k /63.75 443.3k /51.80 855.8k /100.00 503.6k /58.85 471.4k /55.08 504.0k /58.89 442.4k /51.69 545.6k /63.75 443.3k /51.80 0.15
278.3k /100.00 176.2k /63.29 175.9k /63.20 183.8k /66.03 168.8k /60.65 176.3k /63.34 187.5k /67.35 278.3k /100.00 176.2k /63.29 175.9k /63.20 183.8k /66.03 168.8k /60.65 176.3k /63.34 187.5k /67.35 0.15
861.6k /100.00 470.8k /54.64 513.6k /59.61 559.4k /64.92 534.3k /62.01 554.4k /64.34 568.0k /65.92 861.6k /100.00 470.8k /54.64 513.6k /59.61 559.4k /64.92 534.3k /62.01 554.4k /64.34 568.0k /65.92 0.15
ResNet56, CIFAR10 ResNet56, CIFAR10 0.39
ResNet20, CIFAR100 ResNet20, CIFAR100 0.39
ResNet56, CIFAR100 ResNet56, CIFAR100 0.39
Table 4. Benchmarking channel pruning criteria on CIFAR10 and CIFAR100 image classification under the scheme of random pruning. 表4。 CIFAR10およびCIFAR100画像分類におけるランダムプルーニング方式に基づくベンチマークチャネルプルーニング基準 0.53
B. Upper Bounded Performance of Channel B.チャンネルの上部境界性能 0.68
Pruning. In the this section, we provide the justification of the statement in the main paper “the performance of the channel pruned network is upper bounded by the original network”. プルーニング。 本項では,本文の正当性について,本文では「チャネル切断ネットワークの性能は,元のネットワークによって上限づけられている」としている。 0.69
In the paper “The Lottery Ticket Hypothesis”, the authors showed that some pruned networks could learn faster while reaching higher test accuracy and generalizing better than the original one [12]. 論文 “The Lottery Ticket hypothesis” で著者らは、いくつかの刈り取られたネットワークはより高速に学習でき、テスト精度は向上し、元のネットワークよりも一般化できることを示した[12]。 0.71
Yet, the conclusion is derived for unstructured pruning. しかし、この結論は非構造化プルーニングに導かれる。 0.62
The problems of unstructured pruning and structured pruning are quite different. 非構造化プルーニングと構造化プルーニングの問題は、かなり異なる。 0.68
Unstructured pruning removes single connections in a CNN and results in irregular kernels. 非構造化プルーニングはCNN内の単一接続を取り除き、不規則なカーネルとなる。 0.59
And it is possible that the number of kernels in the resultant sparse network is the same as the original network. そして、結果として生じるスパースネットワーク内のカーネルの数は、元のネットワークと同じである可能性がある。 0.76
The capacity of a network could be ネットワークの容量は 0.45
12 12 0.42
英語(論文から抽出)日本語訳スコア
(a) Epochs vs error in ResNet18. (a) ResNet18におけるEpochs vs error 0.90
(b) Epochs vs. error in ResNet50. (b) resnet50のエポックvs.エラー。 0.66
Figure 5. The influence of the random sample size and fine-tuning epochs on the prediction accuracy. 図5。 ランダム標本サイズと微調整時間の影響が予測精度に及ぼす影響 0.70
(a) L1. (b) L2. (a)L1。 (b)L2。 0.83
(c) GM. (d) TE. (c)GM。 (d)TE。 0.34
(e) KL. (f) ES. (e)KL。 (f) es。 0.34
Figure 6. Percentage of remaining channels of the pruned ResNet50 network. 図6。 プルーニングされたResNet50ネットワークの残りのチャネルの割合。 0.72
The network pruned by different methods are reported. 異なる手法で切断されたネットワークを報告する。 0.66
The pruning ratio is 70%. 刈り取り率は70%である。 0.76
The Top-1 error, FLOPs, and number of parameters are also reported in the figure. top-1エラー、フロップ、パラメータの数も図で報告されている。 0.72
fully utilized by the sparse network. スパースネットワークによって完全に利用される。 0.63
This is why unstructured pruning could easily lead to an extremely pruned network without accuracy drop while for structured pruning researchers struggle with the trade-off between accuracy drop and compression ratio. 構造的プルーニングでは、精度低下と圧縮率のトレードオフに苦労する一方で、非構造化プルーニングが精度低下のない極めてプルーニングネットワークに簡単につながる理由がそこにある。 0.63
Without expanding the search space (i.e. changing the position of pooling layers [41], widening the network [34, 58, 60]), it is very difficult to find a pruned network with better performance. 探索空間を拡大することなく(すなわち、プール層[41]の位置を変更し、ネットワーク[34,58,60]を広げる)、より優れた性能で切断されたネットワークを見つけることは極めて困難である。 0.85
Thus, we can safely conclude that the performance of channel pruned networks is upper bounded by the original networks. したがって、チャネルプルーニングネットワークの性能は、元のネットワークによって上限されていることを安全に結論付けることができる。 0.64
C. Pruning Residual Blocks c. 残存ブロックの刈り取り 0.66
Pruning a normal convolutional 通常の畳み込みを打つ 0.63
layer is straightforward. But when it comes to the residual blocks in MobileNetV2 [53] and ResNet [16], some special measures should be taken. レイヤーは単純だ しかし MobileNetV2 [53] と ResNet [16] の残留ブロックに関しては、いくつかの特別な措置を講じるべきです。 0.77
For the residual blocks in MobileNetV2 and ResNet, there is a skip connection that adds the input of the block to the output of the block so that the block learns a residual component. MobileNetV2とResNetの残留ブロックには、ブロックの出力にブロックの入力を追加するスキップ接続があり、ブロックが残留コンポーネントを学習する。 0.62
Since the input and output of residual blocks are connected, the number of output channels of several residual blocks are the same. 残余ブロックの入力と出力は接続されているので、残余ブロックの出力チャネルの数は同じである。 0.85
When pruning the resid- レシッドを刈るとき- 0.70
13 102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.77; FLOPs: 2.81 [G]; Parmaters: 2.50 [M]102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.33; FLOPs: 2.94 [G]; Parmaters: 2.52 [M]102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.65; FLOPs: 2.87 [G]; Parmaters: 2.53 [M]102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.69; FLOPs: 2.89 [G]; Parmaters: 2.55 [M]102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.66; FLOPs: 2.92 [G]; Parmaters: 2.51 [M]102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.66; FLOPs: 2.88 [G]; Parmaters: 2.49 [M] 13 102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.77; FLOPs: 2.81 [G]; Parmaters: 2.50 [M]102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.33; FLOPs: 2.94 [G]; Parmaters: 2.52 [M]102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.65; FLOPs: 2.87 [G]; Parmaters: 2.53 [M]102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.69; FLOPs: 2.89 [G]; Parmaters: 2.55 [M]102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.66; FLOPs: 2.92 [G]; Parmaters: 2.51 [M]102030Layer Index0.60.81.0Channe l RatioTop-1 Error: 24.66; FLOPs: 2.88 [G]; Parmaters: 2.49 [M] 0.59
英語(論文から抽出)日本語訳スコア
accuracy distribution of the random pruned networks with respect to FLOPs is shown. フロップに対するランダムプルーニングネットワークの精度分布を示す。 0.60
Note that the networks are only updated by minimizing the squared difference between the features maps of the pruned and original network. ネットワークは、プルーニングされたネットワークと元のネットワークの特徴マップの2乗差を最小化することによってのみ更新される。
訳抜け防止モード: ネットワークが更新されるのは 刈り取られたネットワークの特徴マップと元のネットワークの2乗差を最小化する。
0.82
Finetuning has not been conducted during this step. この段階では微調整は行われていない。 0.54
As can be seen, both good sub-networks with low error rate and less accurate sub-networks can be sampled. このように、エラーレートの低い優れたサブネットワークと、より正確なサブネットワークの両方をサンプリングできる。 0.70
And the aim is to search the sub-networks with higher accuracy. 目的は、より高い精度でサブネットワークを検索することだ。 0.70
Similar to Fig. 7, the accuracy distribution with respect to the number of parameters is shown in Fig 8. 第7図と同様に、パラメータ数に関する精度分布を図8に示す。 0.66
ual block, their output channels should be pruned together. ualブロック、出力チャネルを一緒にプルするべきです。 0.73
For both of the pruning settings explained in the main paper, i.e. pruning pre-trained network and and pruning from scratch, we set the same pruning ratio for the convolutional layers that are connected by skip connection. 本論文では, プレトレーニングネットワークのプルーニングとスクラッチのプルーニングの双方について, スキップ接続で接続された畳み込み層に対して, 同一のプルーニング比を設定した。
訳抜け防止モード: メインの論文で説明されている 刈り取りの設定についてです pruning pre - トレーニングされたネットワークとpruning from scratch。 スキップ接続により接続される畳み込み層に対して,同じプルーニング比を設定する。
0.75
Special treatments should also be taken when computing the importance score according to different pruning criteria. プルーニング基準の異なる重要度を計算する際には、特別な処置も講じるべきである。 0.66
I. L1/L2/GM. For the convolutional layers that are connected by skip connection, their individual importance scores are first computed and then added up. L1/L2/GM。 スキップ接続によって接続される畳み込み層に対して、それぞれの重要度スコアを最初に計算し、次に加算する。 0.45
The summation result is used as the final importance score. 合計結果は最終重要スコアとして使用される。 0.75
II. TE. As in the original paper, gates with weights equal to 1 and dimensionality equal to the number of output channels are append to the Batch Normalization layers. II。 TE。 原論文のように、重みが1に等しいゲートと出力チャネルの数に等しい寸法のゲートをバッチ正規化層に付加する。 0.62
The importance score are first computed based on the gates and then added for the layers that are skip-connected. 重要度スコアはまずゲートに基づいて計算され、次にスキップ接続されたレイヤに追加される。 0.66
III. ES. The maximum empirical sensitivity is computed for layers that are connected by skip connections. III。 ES。 最大経験的感度はスキップ接続によって接続される層に対して計算される。 0.61
IV. KL. To compute the KL divergence for the output probability of the pruned and original networks, masks that selects the output channels should be added to the convolutional layers. IV。 KL。 プルーニングされたネットワークと元のネットワークの出力確率のkl分岐を計算するために、出力チャネルを選択するマスクを畳み込み層に追加する必要がある。 0.66
For the convolutional layers that are skip-connected, we set the same mask for them so that the same KL divergence score can be computed for all of them. スキップ接続された畳み込み層に対して、同じマスクを設定し、同じKL分散スコアをそれらすべてに対して計算できるようにします。 0.74
D. More Experimental Results D. さらなる実験結果 0.92
More experimental results are shown in this section. より実験的な結果が本項で示される。 0.80
The results for CIFAR image classification are summarized in Table 4. CIFAR画像分類の結果は表4にまとめられている。 0.87
Besides the results in the main paper, results of ResNet20 on CIFAR10 and ResNet56 on CIFAR100 are also included. 本論文の結果に加えて、CIFAR10上のResNet20とCIFAR100上のResNet56も含んでいる。 0.77
As in the main paper, a couple of pruning criteria are compared including the traditional L1 and L2 norm of the filters (L1, L2), and the recent method based on geometric median (GM) [19], Taylor expansion (TE) [50], KLdivergence importance metric (KL) [45] and empirical sensitivity analysis (ES) [37]. 主論文と同様に、フィルタ(l1,l2)の従来のl1,l2ノルムと、幾何学的中央値(gm)[19]、テイラー展開(te)[50]、kldivergence importance metric(kl)[45]、経験的感度分析(es)[37]に基づく最近の方法を含む、2つのプルーニング基準を比較した。
訳抜け防止モード: 本論文と同様に、フィルタの従来のL1ノルムとL2ノルム(L1,L2 )を含むいくつかのプルーニング基準を比較する。 幾何中央値 ( GM ) [19 ] に基づく最近の手法 Taylor expansion ( TE ) [ 50 ], KLdivergence importance metric (KL ) [ 45 ] and empirical sensitivity analysis (ES ) [ 37 ] 。
0.82
The additional results strengthen the conclusion in the main paper. 追加の結果は本文の結論を裏付けるものである。 0.73
That is, under the scheme of random pruning, the pruning criteria for selecting different channels are less important. すなわち、ランダムプルーニングのスキームでは、異なるチャネルを選択するためのプルーニングの基準は重要ではない。 0.68
The influence of fine-tuning epochs on the final accuracy of the pruned network is shown in Fig 5. また,pruned networkの最終精度に対する微調整エポックの影響を図5に示す。 0.72
The result for ResNet-50 is shown in Fig 5b. ResNet-50の結果は図5bに示されています。 0.60
The result for ResNet18 is shown in Fig 5a. ResNet18の結果は図5aに示されています。 0.64
When the number of fine-tuning epochs is increased from 25 to 100, the Top-1 and Top-5 error of ResNet-50 drops by 0.75% and 0.4%, respectively. 微調整エポックの数が 25 から 100 に増加すると、Top-1 と Top-5 の ResNet-50 の誤差はそれぞれ 0.75% と 0.4% に減少する。 0.69
For ResNet-18, the Top-1 error rate and Top-5 error rate drop by 0.97% and 0.62%, respectively. ResNet-18では、Top-1エラーレートとTop-5エラーレートはそれぞれ0.97%、0.62%減少している。 0.63
This shows the significant influence of fine-tuning epochs. これは微調整時代の大きな影響を示している。 0.60
In Fig 6, the ratio of remaining channels for each of the convolutional layer is plotted. 図6では、各畳み込み層に対する残チャンネルの比率をプロットする。 0.73
The original network is ResNet50 for ImageNet classification and the overall pruning ratio is 70%. 当初のネットワークは ImageNet 分類用の ResNet50 であり、全体のプルーニング率は70% である。
訳抜け防止モード: オリジナルのネットワークはImageNet分類用のResNet50である 全体の刈り取り率は70%です
0.89
The Top-1 error, FLOPs, and number of parameters are also reported in the figure. top-1エラー、フロップ、パラメータの数も図で報告されている。 0.72
In Fig 7, the 14 第7図 14 0.44
英語(論文から抽出)日本語訳スコア
(a) L1. (b) L2. (a)L1。 (b)L2。 0.83
(c) GM. (d) TE. (c)GM。 (d)TE。 0.34
(e) KL. (f) ES. (e)KL。 (f) es。 0.34
Figure 7. Accuracy distribution of network samples with respect to FLOPs for different pruning criteria. 図7。 プルーニング基準の異なるフロップに対するネットワークサンプルの精度分布 0.69
The original network is ResNet50 trained for ImageNet classification. オリジナルのネットワークはimagenet分類用にトレーニングされたresnet50である。 0.62
The network pruning ratio is 70%. ネットワークの刈り取り率は70%である。 0.82
(a) L1. (b) L2. (a)L1。 (b)L2。 0.83
(c) GM. (d) TE. (c)GM。 (d)TE。 0.34
(e) KL. (f) ES. (e)KL。 (f) es。 0.34
Figure 8. Accuracy distribution of network samples with respect to the number of parameters for different pruning criteria. 図8。 異なる刈り取り基準のパラメータ数に対するネットワークサンプルの精度分布 0.67
The original network is ResNet50 trained for ImageNet classification. オリジナルのネットワークはimagenet分類用にトレーニングされたresnet50である。 0.62
The network pruning ratio is 70%. ネットワークの刈り取り率は70%である。 0.82
15 2.8002.8252.8502.875 2.9002.9252.950FLOPs [G]5060708090100Top-1 Error (%)2.8002.8252.8502. 8752.9002.925FLOPs [G]405060708090100Top-1 Error (%)2.802.852.902.95F LOPs [G]50607080Top-1 Error (%)2.8002.8252.8502. 8752.9002.925FLOPs [G]5060708090100Top-1 Error (%)2.802.852.902.95F LOPs [G]5060708090100Top-1 Error (%)2.8002.8252.8502. 8752.9002.9252.950FL OPs [G]5060708090Top-1 Error (%)2.462.482.502.522 .54Parameters [M]5060708090100Top-1 Error (%)2.462.482.502.522 .54Parameters [M]405060708090100Top-1 Error (%)2.462.482.502.522 .542.56Parameters [M]50607080Top-1 Error (%)2.462.482.502.522 .542.56Parameters [M]5060708090100Top-1 Error (%)2.482.502.522.54P arameters [M]5060708090100Top-1 Error (%)2.462.482.502.522 .542.56Parameters [M]5060708090Top-1 Error (%) 15 2.8002.8252.8502.875 2.9002.9252.950FLOPs [G]5060708090100Top-1 Error (%)2.8002.8252.8502. 8752.9002.925FLOPs [G]405060708090100Top-1 Error (%)2.802.852.902.95F LOPs [G]50607080Top-1 Error (%)2.8002.8252.8502. 8752.9002.925FLOPs [G]5060708090100Top-1 Error (%)2.802.852.902.95F LOPs [G]5060708090100Top-1 Error (%)2.8002.8252.8502. 8752.9002.9252.950FL OPs [G]5060708090Top-1 Error (%)2.462.482.502.522 .54Parameters [M]5060708090100Top-1 Error (%)2.462.482.502.522 .54Parameters [M]405060708090100Top-1 Error (%)2.462.482.502.522 .542.56Parameters [M]50607080Top-1 Error (%)2.462.482.502.522 .542.56Parameters [M]5060708090100Top-1 Error (%)2.482.502.522.54P arameters [M]5060708090100Top-1 Error (%)2.462.482.502.522 .542.56Parameters [M]5060708090Top-1 Error (%) 0.32
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。