論文の概要、ライセンス

# (参考訳) 知識蒸留のための等速データ拡張 [全文訳有]

Isotonic Data Augmentation for Knowledge Distillation ( http://arxiv.org/abs/2107.01412v2 )

ライセンス: CC BY 4.0
Wanyun Cui, Sen Yan(参考訳) 知識蒸留は教師モデルによって予測される本物のハードラベルとソフトラベルの両方を監督する。 直感的には、ソフトラベルとハードラベルはw.r.t.と一致している。 確率の命令だ しかし,拡張サンプルでは,ハードラベルとソフトラベルの臨界順序違反が確認された。 例えば、$x=0.7*panda+0.3*cat$の場合、意味のあるソフトラベルの順序は$P_\text{soft}(panda|x)>P_\text{soft}(cat|x)>P_\text{soft}(other|x)$と期待する。 しかし、実際のソフトレーベルは通常、注文に違反する。 P_\text{soft}(tiger|x)>P_\text{soft}(panda|x)>P_\text{soft}(cat|x)$ これは教師の満足のいく一般化能力に起因し、強化サンプルの予測誤差につながる。 経験的に、違反は一般的であり、知識伝達を損なうことがわかりました。 本稿では,isotonic data augmentation (ida) と表記される知識蒸留のためのデータ拡張に関する順序制限を導入する。 isotonic regression (ir) -- 統計学の古典的なテクニック -- を使用して、順序違反を排除します。 IDAは木構造IR問題としてモデル化可能であることを示す。 したがって、従来のIRT-BINアルゴリズムを$O(c \log c)$時間複雑性の最適解に適用し、$c$はラベルの数である。 時間複雑性をさらに低減するために,線形時間複雑性を持つGPUフレンドリな近似も提案する。 提案するidaアルゴリズムが, ランク違反を除去し, 知識蒸留の精度を効果的に向上させることを示す, 変種データセットとデータ拡張手法について検証した。

Knowledge distillation uses both real hard labels and soft labels predicted by teacher models as supervision. Intuitively, we expect the soft labels and hard labels to be concordant w.r.t. their orders of probabilities. However, we found critical order violations between hard labels and soft labels in augmented samples. For example, for an augmented sample $x=0.7*panda+0.3*cat$, we expect the order of meaningful soft labels to be $P_\text{soft}(panda|x)>P_\text{soft}(cat|x)>P_\text{soft}(other|x)$. But real soft labels usually violate the order, e.g. $P_\text{soft}(tiger|x)>P_\text{soft}(panda|x)>P_\text{soft}(cat|x)$. We attribute this to the unsatisfactory generalization ability of the teacher, which leads to the prediction error of augmented samples. Empirically, we found the violations are common and injure the knowledge transfer. In this paper, we introduce order restrictions to data augmentation for knowledge distillation, which is denoted as isotonic data augmentation (IDA). We use isotonic regression (IR) -- a classic technique from statistics -- to eliminate the order violations. We show that IDA can be modeled as a tree-structured IR problem. We thereby adapt the classical IRT-BIN algorithm for optimal solutions with $O(c \log c)$ time complexity, where $c$ is the number of labels. In order to further reduce the time complexity, we also propose a GPU-friendly approximation with linear time complexity. We have verified on variant datasets and data augmentation techniques that our proposed IDA algorithms effectively increases the accuracy of knowledge distillation by eliminating the rank violations.
公開日: Tue, 6 Jul 2021 05:39:45 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Isotonic Data Augmentation for Knowledge Distillation 知識蒸留のための等速データ拡張 0.61
Wanyun Cui1∗ , Sen Yan2 Wanyun Cui1∗ , Sen Yan2 0.78
Shanghai University of Finance and Economics cui.wanyun@sufe.edu. cn, woodthree333@gmail.c om, 上海経済大学 cui.wanyun@sufe.edu. cn, woodthree333@gmail.c om 0.51
1 2 0 2 l u J 1 2 0 2 l u J 0.85
6 ] G L . 6 ] G L。 0.81
s c [ 2 v 2 1 4 1 0 sc [ 2 v 2 1 4 1 0 0.68
. 7 0 1 2 : v i X r a . 7 0 1 2 : v i X r a 0.85
Abstract Knowledge distillation uses both real hard labels and soft labels predicted by teacher models as suIntuitively, we expect the soft labels pervision. 概要 知識蒸留は,教師モデルによって予測される真の硬質ラベルと軟質ラベルの両方を用いる。 0.53
and hard labels to be concordant w.r.t. ハードラベルはw.r.t. 0.51
their orders of probabilities. However, we found critical order violations between hard labels and soft labels in augmented samples. 確率の命令だ しかし,拡張サンプルでは,ハードラベルとソフトラベルの臨界順序違反が確認された。 0.53
For example, for an augmented sample x = 0.7 ∗ panda + 0.3 ∗ cat, we expect the order of meaningful soft labels to be Psoft(panda|x) > Psoft(cat|x) > Psoft(other|x). 例えば、加法サンプル x = 0.7 ∗ panda + 0.3 ∗ cat に対して、意味のあるソフトラベルの順序は Psoft(panda|x) > Psoft(cat|x) > Psoft(other|x) となる。 0.85
But real soft labels usually violate the order, e g Psoft(tiger|x) > Psoft(panda|x) > Psoft(cat|x). しかし、実際のソフトラベルは通常、e g Psoft(tiger|x) > Psoft(panda|x) > Psoft(cat|x) である。 0.80
We attribute this to the unsatisfactory generalization ability of the teacher, which leads to the prediction error of augmented samples. これは教師の満足のいく一般化能力に起因し、強化サンプルの予測誤差につながる。 0.64
Empirically, we found the violations are common and injure the knowledge transfer.In this paper, we introduce order restrictions to data augmentation for knowledge distillation, which is denoted as isotonic data augmentation (IDA). 経験的に, 侵害が一般的であり, 知識伝達を損なうことが判明した。本論文では, 知識蒸留のためのデータ拡張に順序制限を導入し, 等張的データ拡張 (ida) と表記する。 0.58
We use isotonic regression (IR) – a classic technique from statistics – to eliminate the order violations. 我々は、注文違反を排除するために、統計学の古典的なテクニックである等調回帰(IR)を用いる。 0.62
We show that IDA can be modeled as a tree-structured IR problem. IDAは木構造IR問題としてモデル化可能であることを示す。 0.66
We thereby adapt the classical IRT-BIN algorithm for optimal solutions with O(c log c) time complexity, where c is the number of labels. そこで,従来のirt-binアルゴリズムをo(c log c)時間複雑性を持つ最適解に適用し,cをラベル数とする。 0.76
In order to further reduce the time complexity, we also propose a GPU-friendly approximation with linear time complexity. 時間複雑性をさらに低減するために,線形時間複雑性を持つGPUフレンドリな近似も提案する。 0.81
We have verified on variant datasets and data augmentation techniques that our proposed IDA algorithms effectively increases the accuracy of knowledge distillation by eliminating the rank violations. 提案するidaアルゴリズムが, ランク違反を除去し, 知識蒸留の精度を効果的に向上させることを示す, 変種データセットとデータ拡張手法について検証した。 0.67
1 Introduction Data augmentation, as a widely used technology, is also beneficial to knowledge distillation [Das et al , 2020]. 1 導入データ増強は、広く使われている技術として、知識蒸留にも有用である(Das et al , 2020)。 0.71
For example, [Wang et al , 2020b] use data augmentation to improve [Wang the generalization ability of knowledge distillation. 例えば, [Wang et al , 2020b] は知識蒸留の一般化能力を向上させるためにデータ拡張を利用する。 0.87
et al , 2020a] use Mixup [Zhang et al , 2018], a widely et al , 2020a] mixup [zhang et al , 2018] 0.60
∗Contact Author ∗Contact 作者 0.74
(a) The Kendall’s τ coefficient between the soft label distribution and the hard label distribution. (a)ソフトラベル分布とハードラベル分布の間のケンドールのτ係数。 0.57
Larger τ means higher ordinal association. τ はより大きい順序関係を意味する。 0.68
(b) The ratio of augmented samples in which at least one original label is in the top 2 soft labels. (b)少なくとも1つのオリジナルラベルが上位2のソフトラベルに含まれる増補サンプルの割合。 0.74
Figure 1: Both 1a and 1b reveal that, the orders of soft labels and hard labels are highly concordant for the original samples. 図1: 1aと1bはどちらも、ソフトラベルとハードラベルの順序が元のサンプルと非常に一致していることを明らかにする。 0.67
But for augmented samples, the order concordance is broken seriously. しかし、追加サンプルの場合、順序一致は深刻に壊れている。 0.62
This motivates us to introduce the order restrictions in data augmentation for knowledge distillation. これにより、知識蒸留のためのデータ拡張の順序制限を導入するモチベーションが生まれます。 0.59
applied data augmentation technique, to improve the efficiency of knowledge distillation. 知識蒸留の効率を向上させるための 応用データ拡張技術。 0.83
In this paper, we focus on the mixture-based data augmentation (e g Mixup and Cutmix [Yun et al , 2019]), arguably one of the most widely used type of augmentation techniques. 本稿では, 混合データ拡張(eg MixupとCutmix [Yun et al , 2019])に焦点を当て, 最も広く利用されているデータ拡張手法の1つと考えられる。 0.74
Intuitively, we expect the order concordance between soft labels and hard labels. 直感的には,ソフトラベルとハードラベルの順序一致を期待する。 0.62
In Fig 2, for an augmented sample ˜x = 0.7 ∗ panda + 0.3 ∗ cat, the hard label distribution is Phard(panda|˜x) = 0.7 > Phard(cat|x) = 0.3 > Phard(other|˜x) = 0. フィグ2 では、増分標本 tx = 0.7 ∗ panda + 0.3 ∗ cat に対して、ハードラベル分布は Phard(panda| tx) = 0.7 > Phard(cat|x) = 0.3 > Phard(other| tx) = 0 である。 0.75
Then we expect the soft labels to the hard labels: Psoft(panda|˜x) > be monotonic w.r.t. すると、ハードラベルへのソフトラベルを期待する: psoft(panda| \x) > 単調 w.r.t. である。 0.57
Psoft(cat|˜x) > Psoft(other|˜x). Psoft(cat| sx) > Psoft(other| sx)。 0.79
However, we found critical order violations between hard labels and soft labels in real datasets and teacher models. しかし,実際のデータセットと教師モデルでは,ハードラベルとソフトラベルの臨界順序違反が確認された。 0.65
To verify this, we plot the Kendall’s τ coefficient [Kendall, 1938] between the soft labels and the hard labels of different teacher models and different data augmentation techniques in CIFAR-100 in Fig 1a. これを検証するために, ソフトラベルと異なる教師モデルのハードラベル間におけるケンドールのτ係数 [kendall, 1938] と, fig 1a の cifar-100 におけるデータ拡張技術の違いをプロットした。 0.69
We only count label pairs whose orders are known. 順序が分かっているラベルペアだけを数えます。 0.56
In other words, we ignore the orders between two “other” labels, since we do not know them. 言い換えれば、私たちは2つの“他の”ラベル間の順序を無視します。
訳抜け防止モード: 言い換えれば、私たちは2つの“他の”ラベル間の順序を無視します。 知らないから。
0.81
A clear phenomenon is that, although the hard labels and soft labels are almost completely concordant for original samples, they are likely to be discordant for augmented samples. 明らかな現象は、硬いラベルと柔らかいラベルはオリジナルのサンプルとほぼ完全に一致しているが、強化されたサンプルでは不一致であるということである。 0.72
What’s more surprising is that, in Fig 1b, we find that there are a さらに驚くのは、fig 1bには 0.27
Original SamplesAugmented Samples0.50.60.70.80 .91.0Kendall's τ coefficientResNet50- MixupResNet50-CutMix GoogleNet-MixupGoogl eNet-CutMixOriginal SamplesAugmented Samples0.800.850.900 .951.00RatioResNet50 -MixupGoogleNet-Mixu pResNet50-CutMixGoog leNet-CutMix Original SamplesAugmented Samples0.50.60.70.80 .91.0Kendall's τ coefficientResNet50- MixupResNet50-CutMix GoogleNet-MixupGoogl eNet-CutMixOriginal SamplesAugmented Samples0.800.850.900 .951.00RatioResNet50 -MixupGoogleNet-Mixu pResNet50-CutMixGoog leNet-CutMixix 0.19
英語(論文から抽出)日本語訳スコア
Figure 2: Using isotonic regression to introduce order restrictions to soft labels. 図2:isotonic regressionを使用して、ソフトラベルに順序制限を導入する。 0.64
proportion of augmented samples, in which none of the original labels are in the top 2 of the soft labels.We attribute this to the insufficient generalization ability of the teacher, which leads to the prediction error of the augmented sample. 原ラベルがソフトラベルのトップ2に含まれない拡張標本の割合は,教師の汎化能力が不十分であることに起因するため,拡張標本の予測誤差が生じる。 0.59
We will show in Sec 5.3 that the order violations will injury the knowledge distillation. Sec 5.3では、注文違反が知識蒸留を損なうことを示します。 0.67
As far as we know, the order violations between hard labels and soft labels havn’t been studied in previous studies. われわれが知る限り、ハードラベルとソフトラベルの間の注文違反は、これまでの研究では研究されていない。 0.66
A natural direction to tackle the problem is to reduce the order violations in soft labels. この問題に取り組む自然な方向は、ソフトラベルの注文違反を減らすことである。 0.67
To this end, we leverage the isotonic regression (IR) – a classic technique from statistics – to introduce the order restrictions into the soft labels. この目的のために、統計学の古典的手法である等調回帰(IR)を利用して、秩序制限をソフトラベルに導入する。 0.69
IR minimizes the distance from given nodes to a set defined by some order constraints. IRは与えられたノードからある順序制約によって定義された集合までの距離を最小化する。 0.62
In Fig 2, by applying order restrictions to soft labels via IR, we obtain concordant soft labels while keeping the original soft label information as much as possible. In Fig 2 by applied order restrictions to soft labels via IR, we obtain concordant soft labels without the original soft label information as possible as possible。 0.76
IR has numerous important applications in statistics [Barlow and Brunk, 1972], operations research [Maxwell and Muckstadt, 1985], and signal processing [Acton and Bovik, 1998]. IRは統計学(Barlow and Brunk, 1972)、オペレーション研究(Maxwell and Muckstadt, 1985)、信号処理(Acton and Bovik, 1998)において多くの重要な応用がある。 0.82
To our knowledge, we are the first to introduce IR in knowledge distillation. 私たちの知識では、知識蒸留にirを導入するのは初めてです。 0.62
Some other studies also noticed the erroneous of soft labels in knowledge distillation and were also working on mitigating it [Wen et al , 2019; Ding et al , 2019; Tian et al , 2019]. 他の研究では、知識蒸留におけるソフトラベルの誤用にも気付き、その緩和にも取り組んでいた(Wen et al , 2019; Ding et al , 2019; Tian et al , 2019)。 0.74
However, none of them revealed the order violations of soft labels. しかし、いずれもソフトレーベルの注文違反は明らかにしなかった。 0.63
2 Related Work Knowledge Distillation with Erroneous Soft Labels. 2 異形軟質ラベルを用いた作業知識蒸留について 0.63
In recent years, knowledge distillation [Hinton et al , 2015] as a model compression and knowledge transfer technology has received extensive research interests. 近年, モデル圧縮・知識伝達技術としての知識蒸留 [Hinton et al , 2015] は, 幅広い研究関心を集めている。 0.81
Since the teacher model is non-optimal, how to deal with the errors of soft labels has become an important issue. 教師モデルは最適ではないため,ソフトラベルの誤りに対処する方法が重要な問題となっている。 0.81
Traditional methods often solve this problem via optimizing the teacher model or student model. 従来の手法では、教師モデルや生徒モデルを最適化することで、この問題を解決することが多い。 0.53
For teacher optimization, [Cho and Hariharan, 2019] finds that a larger network is not necessarily a better teacher, because student models may not be able to imitate a large network. 教師の最適化について [cho and hariharan, 2019] は,学生モデルでは大きなネットワークを模倣できないため,より大きなネットワークが必ずしも優れた教師であるとは限らない,と指摘する。 0.78
They proposed that early-stopping should be used for the teacher, so that large networks can behave more like small networks [Mahsereci et al , 2017], which is easier to imitate. 彼らは、大規模なネットワークが(mahsereci et al , 2017)小さなネットワークのように振る舞うように、教師に早期停止を利用するべきだと提案した。 0.66
An important idea for teacher model optimization is “strictness” [Yang et al , 2019], which refers to tolerating the teacher’s probability distribution outside of hard labels. 教師モデル最適化の重要なアイデアは,硬いラベル以外の教師の確率分布を許容する,制約性(Yang et al , 2019)である。
訳抜け防止モード: 教師モデル最適化の重要なアイデアは、“厳密さ”[yang et al, 2019]である。 これは教師の確率分布をハードラベルの外側でゆるめることを指す。
0.75
The training optimization of the student model is mainly 学生モデルのトレーニング最適化は主に 0.69
to modify the loss function of distillation. 蒸留の損失関数を 修正するためです 0.73
[Wen et al , 2019] proposed to assign different τs to different samples based on their deceptiveness to teacher models. また, [Wen et al , 2019] では, 異なるτを異なるサンプルに割り当てることを提案した。 0.63
[Ding et al , 2019] proposed that the label correlation represented by student should be consistent with teacher model. [Ding et al , 2019] は,学生が表すラベル相関は教師モデルと一致すべきであると主張した。 0.75
They use residual labels to add this goal to the loss function. 彼らはこの目標を損失関数に追加するために残留ラベルを使用する。 0.71
However, none of these studies reveal the phenomenon of しかし、これらの研究はいずれもその現象を明らかにしていない。 0.53
rank violations in data augmented knowledge distillation. データ拡張知識蒸留におけるランク違反 0.66
Data Mixing is a typical data augmentation method. データ混合は典型的なデータ拡張手法である。 0.75
Mixup [Zhang et al , 2018] first randomly combines a pair of samples via weighted sum of their data and labels. Mixup[Zhang et al , 2018]はまず、データとラベルの重み付け和を使って、ランダムにサンプルを結合する。 0.76
Some recent studies include CutMix [Yun et al , 2019], and RICAP [Takahashi et al , 2019]. 最近の研究としては、CutMix (Yun et al , 2019) とRICAP (Takahashi et al , 2019) がある。 0.77
The main difference among the different mixing methods is how they mix the data. 異なる混合方法の主な違いは、どのようにデータを混ぜるかである。 0.84
The difference between our isotonic data augmentation and the conventional data augmentation is that we focus on relieving the error transfer of soft labels in knowledge distillation by introducing order restrictions. アイソトニックデータ増量と従来のデータ増量との違いは、注文制限の導入による知識蒸留におけるソフトラベルの誤り伝達の軽減に焦点を当てることである。 0.76
Therefore, we pay attention to the order restrictions of the soft labels, instead of directly using the mixed data as data augmentation. したがって,混合データをデータ拡張として直接使用するのではなく,ソフトラベルの注文制限に注意を払う。 0.75
We verified in the experiment section that our isotonic data augmentation is more effective than directly using mixed data for knowledge distillation. 実験では, 混合データによる知識蒸留よりも, アイソトニックデータの増大が有効であることが確認された。 0.79
3 Data Augmentation for Knowledge 3 知識のためのデータ拡張 0.76
Distillation 3.1 Standard Knowledge Distillation 蒸留 3.1 標準知識蒸留 0.72
In this paper, we consider the knowledge distillation for multi-class classification. 本稿では,多クラス分類における知識蒸留について考察する。 0.72
We define the teacher model as T (x) : X → Rc, where X is the feature space, C = {1,··· , c} is the label space. 教師モデルは t (x) : x → rc と定義され、ここで x は特徴空間、c = {1,··· , c} はラベル空間である。
訳抜け防止モード: 教師モデルは T ( x ) : X → Rc と定義する。 ここで X は特徴空間であり、C = { 1 である。 · · · · , c } はラベル空間である。
0.86
We denote the student model as S(x) : X → Rc. 学生モデルを S(x) : X → Rc と表す。 0.68
The final classification probabilities of the two models are computed by sof tmax(T (x)) and sof tmax(S(x)), respectively. 2つのモデルの最終的な分類確率は、それぞれ sof tmax(T(x)) と sof tmax(S(x)) によって計算される。 0.90
We denote the training dataset as Dtrain = {(x(1), y(1)),··· , (x(n), y(n))}, where y(i) is one-hot encoded. Dtrain = {(x(1), y(1)),··· , (x(n), y(n))} ここで y(i) は 1-ホットエンコードされる。
訳抜け防止モード: トレーニングデータセットをdtrain = { (x(1 ), と指定する。 y(1 ) ), · · ·, ( x(n ), y(n ) ) } ここで y(i ) はホットエンコードである。
0.71
We denote the score of the j-th label for y(i) as y(i) j y(i) の j 番目のラベルのスコアを y(i)j と表します。 0.73
. The distillation has two objectives: hard loss and soft loss. . 蒸留には、ハードロスとソフトロスの2つの目的がある。 0.66
The hard loss encourages the student model to predict the supervised hard label y(i). ハードロスは、教師付きハードラベルy(i)を予測することを学生モデルに促す。 0.58
The soft loss encourages the student model to perform similarly with the teacher model. 柔らかい損失は、生徒モデルが教師モデルと同じように振る舞うことを奨励する。 0.72
We use catpandaTeacherOrigi nal soft labels with order violationsPredictCon cordant soft labels after introducing order restrictionsAugmente d sample“panda”“cat”Isotonic regression*0.7*0.3pa ndacattigerpandacatt iger 私たちは catpandaTeacher Original soft labels with order violationsPredictCon cordant soft labels after introduced order restrictionsAugmente d sample “panda” “cat” Isotonic regression*0.7*0.3pa ndacattigerpandacatt iger 0.73
英語(論文から抽出)日本語訳スコア
cross entropy (CE) to measure both similarities: 両類似性を測定するためのクロスエントロピー(ce) 0.73
the aspect ratio of B to be proportional to the original image: 原画像に比例するbのアスペクト比: 0.59
Lhard(x, y) = CE(sof tmax(S(x)), y) Lsoft(x, y) = CE(sof tmax( Lhard(x, y) = CE(sof tmax(S(x)), y) Lsoft(x, y) = CE(sof tmax()) 0.84
S(x) τ ), sof tmax( S(x)τ ), sof tmax( 0.75
T (x) τ )) (1) where τ is a hyper-parameter denoting the temperature of the distillation. T (x)τ )) 1) τ が蒸留の温度を示す超パラメータである場合。 0.78
The overall loss of the knowledge distillation is the sum of 知識蒸留の全体的な損失は総和である 0.70
the hard loss and soft loss: ハード・ロスとソフト・ロスです 0.53
LKD = E(x,y)∼Dtrain ατ 2Lsoft(x, y) + (1 − α)Lhard(x, y) LKD = E(x,y) = Dtrain ατ 2Lsoft(x, y) + (1 − α)Lhard(x, y) 0.92
(2) where α is a hyper-parameter. (2) α は超パラメータである。 0.80
3.2 Knowledge Distillation with Augmented 3.2 拡張型知識蒸留 0.73
Samples In this subsection, we first formulate data augmentation for knowledge distillation. サンプル 本稿では,まず,知識蒸留のためのデータ拡張を定式化する。 0.72
We train the student model against the augmented samples instead of the original samples from Dtrain. Dtrainのオリジナルのサンプルではなく、拡張サンプルに対して学生モデルをトレーニングする。 0.80
This method is considered as a baseline without introducing the order restrictions. この方法は順序制限を導入することなくベースラインと見なされる。 0.76
We then formulate the data augmentation techniques used in this paper. 次に,本論文で使用するデータ拡張手法を定式化する。 0.71
Data Augmentation-base Knowledge Distillation. データ拡張ベース知識蒸留。 0.74
In this paper, we consider two classic augmentations (i.e., CutMix [Yun et al , 2019] and Mixup [Zhang et al , 2018]). 本稿では,二つの古典的拡張 (cutmix [yun et al , 2019] と mixup [zhang et al , 2018]) について考察する。 0.76
Our work can be easily extended to other mixture-based data enhancement operations (e g FCut [Harris et al , 2020], Mosiac [Bochkovskiy et al , 2020]). 我々の作業は、他の混合データ拡張操作(例えば、FCut [Harris et al , 2020], Mosiac [Bochkovskiy et al , 2020])にも容易に拡張できます。 0.74
As in Mixup and CutMix, we combine two original samples to form a new augmented sample. mixupとcutmixと同様に、2つのオリジナルサンプルを組み合わせることで、新しい拡張サンプルを作ります。 0.74
For two original samples (x(i), y(i)) and (x(j), y(j)), data augmentation generates a new sample (˜x, ˜y). 2つの元のサンプル (x(i), y(i)) と (x(j), y(j) に対して、データの増大は新しいサンプル (x, y) を生成する。 0.83
The knowledge distillation based on augmented samples has the same loss function as in Eq (2): LKD-aug = E(˜x,˜y)∼Dtrain ατ 2Lsof t(˜x, ˜y) + (1 − α)Lhard(˜x, ˜y) (3) where the augmented sample (˜x, ˜y) ∼ Dtrain is samsamples pled by first {(x(i), y(i)), (x(j), y(j))} from Dtrain, and then mixing the samples. 強化サンプルに基づく知識蒸留は、Eq (2) と同じ損失関数を持つ: LKD-aug = E( sx, sy) = Dtrain ατ 2Lsof t( sx, sy) + (1 − α)Lhard( sx, sy) (3) ここで、Dtrain は、Dtrain からの最初の {(x(i), y(i)), (x(j), y(j))} を引いて、サンプルを混合する。 0.66
randomly selecting 2 original ランダムに2つのオリジナルを選択する 0.51
We formulate the process of augmenting samples as: サンプルの増補過程を次のように定式化する。 0.57
˜x = A(x(i), x(j), γ) ˜y = γy(i) + (1 − γ)y(j) は、x = A(x(i), x(j), γ) は、y = γy(i) + (1 − γ)y(j) である。 0.95
(4) where A denotes the specific data augmentation technique. (4) ここで a は特定のデータ拡張技術を表す。 0.75
P (panda|˜y) = ˜y is distributed in two labels (e g 0.7, P (cat|˜y) = 0.3). P は 2 つのラベル(例えば、P は 0.7, P は 0.3 である)に分布する。 0.74
We will formulate different data augmentation techniques below. 以下の異なるデータ拡張手法を定式化する。 0.66
CutMix augments samples by cutting and pasting patches for a pair of original images. cutmixは、オリジナル画像のパッチをカット&ペーストすることで、サンプルを増強する。 0.63
For x(i) and x(j), CutMix samples a patch B = (rx, ry, rw, rh) for both of them. x(i) と x(j) に対して、CutMix はパッチ B = (rx, ry, rw, rh) をサンプリングする。 0.70
Then CutMix removes the region B in x(i) and fills it with the patch cropped from B of x(j). 次に、CutMix は領域 B を x(i) で取り除き、それを x(j) の B から取り出したパッチで埋める。 0.80
We formulate CutMix as: CutMix を次のように定式化する。 0.44
ACutMix(x(i), x(j), γ) = M (cid:12) x(i) + (1 − M ) (cid:12) x(j) ACutMix(x(i), x(j), γ) = M (cid:12) x(i) + (1 − M ) (cid:12) x(j) 0.90
(5) where M ∈ {0, 1}W×H indicates whether the coordinates are inside (0) or outside (1) the patch. (5) ここで M ∈ {0, 1}W×H は、座標が (0) 内にあるか、パッチ外にあるかを示す。 0.80
We follow the settings in [Yun et al , 2019] to uniformly sample rx and ry and keep 我々は [Yun et al , 2019] の設定に従い、rx と ry を一様にサンプリングし、保存する。 0.68
rx ∼ U nif (0, W ), rw = W(cid:112)1 − γ ry ∼ U nif (0, H), rh = W(cid:112)1 − γ rx が u nif (0, w)、rw = w(cid:112)1 − γ ry が u nif (0, h)、rh = w(cid:112)1 − γ である。 0.88
(6) Mixup augments a pair of sample by a weighted sum of (6) Mixupは、一対のサンプルを加重和で増強する 0.81
their input features: (7) 入力の特徴は (7) 0.73
Isotonic Data Augmentation Isotonic Data Augmentation 0.85
AMixup = γx(i) + (1 − γ)x(j) where each γ ∼ Beta(a, a) for a ∈ (0, inf). AMixup = γx(i) + (1 − γ)x(j) ここでは、それぞれ a ∈ (0, inf) に対してベータ(a, a) となる。 0.88
4 In this section, we introduce the order restrictions in data augmentation for knowledge distillation, which is denoted as isotonic data augmentation. 4) 本節では, 知識蒸留におけるデータ増補の順序制限を導入し, 等張的データ増補と表現する。 0.73
In Sec 4.1, we analyze the partial order restrictions of soft labels. Sec 4.1では、ソフトラベルの部分順序制限を分析する。 0.73
We propose the new objective of knowledge distillation subjected to the partial order restrictions in Sec 4.2. 我々は sec 4.2 における部分次数制限を受ける知識蒸留の新しい目的を提案する。 0.72
Since the partial order is a special directed tree, we propose a more efficient Adapted IRT algorithm based on IRT-BIN [Pardalos and Xue, 1999] to calibrate the original soft labels. 部分順序は特別な有向木であるため,IRT-BIN (Pardalos and Xue, 1999) に基づくより効率的な適応IRTアルゴリズムを提案する。
訳抜け防止モード: 部分順序は特殊指示木であるため、IRT-BIN [Pardalos] に基づくより効率的な適応IRTアルゴリズムを提案する。 そして Xue, 1999 ] はオリジナルのソフトラベルを校正する。
0.73
In Sec 4.3, we directly impose partial order restrictions on the student model. Sec 4.3では、学生モデルに部分順序の制約を直接課す。 0.77
We propose a more efficient approximation objective based on penalty methods. ペナルティ法に基づくより効率的な近似手法を提案する。 0.70
4.1 Analysis of the Partial Order Restrictions We hope that the soft label distribution by isotonic data augmentation and the hard label distribution have no order violations. 4.1 部分順序制限の解析 等調データ拡張によるソフトラベル分布とハードラベル分布には順序違反がないことを期待する。 0.77
We perform isotonic regression on the original soft labels T (˜x) to obtain new soft labels that satisfy the order restrictions. 我々は, 元のソフトラベル t に対して等張回帰を行い, 順序制約を満たす新しいソフトラベルを得る。 0.61
We denote the new soft labels as the order restricted soft labels m(T (˜x)) ∈ Rc. 我々は、新しいソフトラベルを、順序制限されたソフトラベル m(T(n)) ∈ Rc として表現する。 0.61
For simplicity, we will use m to denote m(T (˜x)). 単純性のために、m を用いて m(T ( >x)) と表す。 0.71
We use mi to denote the score of the i-th label. mi は i-th ラベルのスコアを表すために使用します。 0.64
To elaborate how we compute m, without loss of generality, we assume the indices of the two original labels of the augmented sample (˜x, ˜y) are 1, 2 respectively with γ > 0.5. 一般性を損なうことなく、m の計算方法を詳しく述べるために、拡張標本の2つの原ラベルの指数 ( sx, sy) はそれぞれ 1, 2 で γ > 0.5 と仮定する。 0.72
So ˜y is monotonically decreasing, i.e. y は単調に減少しています。 0.67
˜y1 = γ > ˜y2 = 1−γ > ··· > ˜yc. y1 = γ > シュイ2 = 1−γ > ··· > シュイック。 0.65
We consider two types of order restrictions: (1) the order between two original labels (i.e., m1 ≥ m2); (2) The order between an original label and a non-original label (i.e. 1) 2つのオリジナルラベル間の順序(m1 ≥ m2) (2) オリジナルラベルと非オリジナルラベルの間の順序(すなわち、m1 ≥ m2)。 0.62
∀i ∈ {1, 2}, j ∈ {3,··· , c}, mi ≥ mj). i ∈ {1, 2}, j ∈ {3,···· , c}, mi ≥ mj) である。 0.73
For example, in Fig 2, we expect the probability of panda is greater than that of cat. 例えば、図2では、パンダの確率が猫の確率よりも大きいと予測している。 0.73
And the probability of cat is greater than other labels. そして、猫の確率は他のラベルよりも大きい。 0.79
We do not consider the order between two non-original labels. 原産地以外の2つのラベル間の順序は考慮しない。 0.59
We use G(V, E) to denote the partial order restrictions, where each vertex i = 1··· c represents mi, an edge (i, j) ∈ E represents the restriction of mi ≥ mj. それぞれの頂点 i = 1·· c が mi を表すとき、辺 (i, j) ∈ E は mi ≥ mj の制限を表す。
訳抜け防止モード: 部分順序制限を表すために G(V, E ) を用いる。 それぞれの頂点 i = 1 · · · · c は mi を表す。 辺 ( i, j ) ∈ E は mi ≥ mj の制限を表す。
0.82
E is formulated in Eq. E は Eq で定式化される。 0.63
(8). We visualize the partial order restrictions in Fig 3. (8). 図3における部分順序制限を可視化する。 0.79
E = {(1, 2)} ∪ {(2, i)|i = 3··· c} E = {(1, 2)} > {(2, i)|i = 3···c} 0.98
(8) Figure 3: The partial order restrictions is a directed tree. (8) 図3: 部分順序制限は有向木である。 0.76
Lemma 1. E is a directed tree. レマ1号。 E は有向木である。 0.61
1342c 1342年 0.57
英語(論文から抽出)日本語訳スコア
4.2 Knowledge Distillation via Order Restricted 4.2 注文制限による知識蒸留 0.72
Soft Labels For an augmented sample (˜x, ˜y), we first use the teacher model to predict its soft labels. ソフトラベル 拡張されたサンプル(x,y)については、まず教師モデルを使ってソフトラベルを予測します。 0.67
Then, we calibrate the soft labels to meet the order restrictions. そして、注文制限を満たすためにソフトラベルを調整します。 0.66
We use the order-restricted soft label distribution m to supervise the knowledge distillation. 注文制限付きソフトラベル分布mを用いて知識蒸留を監督する。 0.65
We formulate this process below. このプロセスを以下に定式化する。 0.56
Objective with Order Restricted Soft Labels. Order Restricted Soft Labels の略。 0.62
Given the hard label distribution ˜y and soft label distribution T (˜x) of an augmented sample (˜x, ˜y), the objective of knowledge distillation with isotonic data augmentation is: 加法試料の硬度ラベル分布 y と軟度ラベル分布 T ( yx) が与えられた場合、イソトニックデータ増量による知識蒸留の目的は次のとおりである。 0.76
LKD-i = LKD-aug + βE(˜x,˜y)∼DtrainCE(˜y, ˆm) LKD-i = LKD-aug + βE( .x, .y) = DtrainCE( .y, .m) 0.69
(9) where ˆm denotes the optimal calibrated soft label distribution. (9) 最適な校正ソフトラベル分布を示す。 0.66
To compute ˆm, we calibrate the original soft label T (˜x) to meet the order restrictions. m を計算するために、元のソフトラベル t をキャリブレーションし、順序制限を満たす。
訳抜け防止モード: を計算します。 元々のソフトラベル t (x ) を校正する。 注文制限を満たすためです
0.68
There are multiple choices for ˆm to meet the restrictions. 制限を満たすためには複数の選択肢がある。 0.81
Besides order restrictions, we also hope that the distance between the original soft label distribution T (˜x) and the calibrated label distribution m is minimized. また、注文制限の他に、元のソフトラベル分布t(x)とキャリブレーションラベル分布mとの間の距離が最小になることを期待する。 0.71
Intuitively, the original soft labels contain the knowledge of the teacher model. 直感的には、オリジナルのソフトラベルは教師モデルの知識を含んでいる。 0.68
So we want this knowledge to be retained as much as possible. ですから私たちは,この知識を可能な限り保持してほしいのです。 0.66
We formulate the calibration below. 下記の校正を定式化する。 0.56
We compute ˆm which satisfies the order restriction E while preserving most knowledge by minimizing the mean square error to the original soft labels: 平均二乗誤差を元のソフトラベルに最小化することで、ほとんどの知識を保ちながら、順序制限 e を満足する sm を計算する。 0.58
ˆm = arg min sm = arg min 0.66
m mean square error(T (˜x), m) M 平均二乗誤差(T(x, m)) 0.72
(10a) subject to ∀(i, j) ∈ E, ˆmi ≥ ˆmj (10a) i, j) ∈ e, smi ≥ smj に従属する 0.74
(10b) Eq. (10b) denotes the order restrictions. (10b)Eq。 (10b)順序制限を表す。 0.83
Eq (10a) denotes the objective of preserving most original information. Eq (10a) は、ほとんどの元の情報を保存する目的を表す。 0.68
The goal of computing ˆm can be reduced to the classical isotonic regression in statistics. 計算の目標は統計学における古典的等調回帰に還元できる。 0.73
Here we analyze the difference between isotonic data augmentation and probability calibration in machine learning [Niculescu-Mizil and Caruana, 2005]. ここでは、機械学習における等速データ増大と確率校正の違いを分析する [Niculescu-Mizil and Caruana, 2005]。 0.80
Isotonic regression is also applied in probability calibration. 等張回帰は確率校正にも適用される。 0.72
While both the proposed isotonic data augmentation and probability calibration try to rectify the erroneous predicted by models, our proposed isotonic data augmentation only happens in the training phase when the groundtruth distribution (i.e. 提案したイソトニックデータ拡張と確率キャリブレーションの両方がモデルによって予測される誤検出を補正しようとするが,提案するイソトニックデータ拡張は基底分布(すなわち,基底分布)のトレーニング段階でのみ発生する。 0.67
the hard labels) is known. ハードラベル)が知られている。 0.73
We use the isotonic soft labels ˆm as the extra supervision for model training. モデルトレーニングの余分な監督には,isotonic soft label (sm) を用いる。 0.66
In contrast, the probability calibration needs to learn an isotonic function and uses it to predict the probability of unlabeled samples. 対照的に、確率キャリブレーションはイソトニック関数を学習し、未ラベル標本の確率を予測するためにそれを使う必要がある。 0.70
Algorithm. To optimize LKD-i, we need to compute ˆm first. アルゴリズム。 lkd-i を最適化するには、まず sm を計算する必要がある。 0.61
According to lemma 1, finding the optimal ˆm can be reduced to the tree-structured IR problem, which can be solved by IRT-BIN [Pardalos and Xue, 1999] with binomial heap in O(c log c) time complexity. レムマ 1 によれば、最適のエムを求めることは、O(c log c) 時間の複雑さで二項ヒープを持つIRT-BIN [Pardalos and Xue, 1999] で解ける木構造IR問題に還元できる。 0.75
We notice that the tree structure in our problem is special: a star (nodes 2··· c) and an extra edge (1, 2). この問題における木構造は特別なもので、星 (nodes 2···c) と余分な辺 (1, 2) である。 0.80
So we give a more efficient implementation compared to IRT-BIN with only one sort in algorithm 1. したがって、アルゴリズム1の1つのソートしか持たないIRT-BINよりも効率的な実装を提供する。 0.65
The core idea of the algorithm is to iteratively reduce the number of violations by merging node blocks until no order violation exists. このアルゴリズムの核となる考え方は、順序違反がないまでノードブロックをマージすることで、繰り返し違反の数を減らすことである。 0.66
Specifically, we divide the nodes into several 具体的には ノードを複数のノードに分割し 0.61
Algorithm 1 Adapted IRT. アルゴリズム 1 IRT に対応。 0.82
Data: T (˜x); |B2|+1 B2 ← B2 ∪ {i} i ← i + 1 データ:t(x) |B2|+1 B2 > B2 > {i} i > i + 1 0.64
1: Initialize mi ← T (˜x)i, Bi ← {i} for i = 1··· c 2: Sort mi for i = 3··· c in descending order 3: i ← 3 4: while i ≤ c AND m2 < mi do 5: m2 ← m2×|B2|+mi 6: 7: 8: end while 9: if m1 < m2 then 10: m1 ← m1+m2×|B2| |B2|+1 B1 ← B1 ∪ B2 11: while i ≤ c AND m1 < mi do 12: 13: 14: 15: 16: 17: end if 18: Recover ˆm from m according to B 19: Return ˆm i = 1·· c 2: Sort mi for i = 3·· c in descending order 3: i ≤ c AND m2 < mi do 5: m2 の m2×|B2|+mi 6: 7: 8 のとき 9: if m1 < m2 then 10: m1 の m1+m2×|B2| |B2|+1 B1 の B1 の B2 11: while i ≤ c and m1 < mi do 12: 13: 14: 16: 17: end if 18: b のとき、m から M を回収する。 0.80
m1 ← m1×|B1|+mi |B1|+1 B1 ← B1 ∪ {i} i ← i + 1 m1 を m1×|b1|+mi |b1|+1 b1 とする。 0.66
end while blocks, and use Bi to denote the block for node i. 最後まで ブロックをブロックし、biを使ってノードiのブロックを表す。 0.69
At initialization, each Bi only contains node i itself. 初期化時には、各Biはノード i 自身のみを含む。 0.62
Since all nodes except 1 and 2 are leaf nodes with a common parent 2, we first consider the violations between 2 and i = 3··· c (line 47). 1 と 2 を除くすべてのノードは共通の親 2 を持つ葉ノードであるため、まず 2 と i = 3··· c の間の違反を考える(ライン47)。 0.76
Note that nodes i = 3··· c are sorted according to their soft probabilities T (˜x)i. ノード i = 3···c は、そのソフト確率 T(x)i に従ってソートされる。 0.72
We enumerate i = 3··· c and iteratively determine whether there is a violation between node 2 and node i. i = 3···c を列挙し、ノード 2 とノード i の間に違反があるかどうかを反復的に決定する。
訳抜け防止モード: i = 3 · · · · c を列挙し、繰り返し決定する。 ノード2とノードIの間に 違反がある
0.65
If so, we absorb node i into B2. もしそうなら、ノード i を B2 に吸収する。 0.75
This absorption will set all nodes in B2 to their average value. この吸収により、B2の全てのノードは平均値に設定される。 0.72
In this way, we ensure that there are no violations among nodes 2··· c. Then, we consider the order between 1 and 2. このようにして、ノード間に2····cの違反がないことを保証する。
訳抜け防止モード: このようにして、ノード 2 · · · c 間に違反がないことを保証します。 1から2までの順序を考えます
0.66
If they are discordant (i.e. もしそれらが不協和音であるなら(つまり) 0.49
m1 < m2), we similarly absorb B2 into B1 to eliminate this violation (line 9-11). m1 < m2) も同様に B2 を B1 に吸収し、この違反を除去する(ライン9-11)。 0.68
If this absorption causes further violations between 2 and a leaf node, we similarly absorb the violated node as above (line 12-15). この吸収が2とリーフノードの間にさらなる違反を引き起こす場合、同様の違反したノードを吸収する(ライン12〜15)。 0.74
Finally, we recover ˆm from m according to the final block divisions. 最後に、最終ブロック分割に従って、m から sm を回収する。 0.69
Theorem 1. [Pardalos and Xue, 1999] The Adapted IRT algorithm terminates with the optimal solution to ˆm. 理論1。 [pardalos and xue, 1999] 適応したirtアルゴリズムは、smの最適解で終了します。 0.63
The correctness of the algorithm is due to the strictly convex function of isotonic data augmentation subject to convex constraints. アルゴリズムの正確性は、凸制約を受ける等張的データ拡張の厳密な凸関数に起因する。 0.73
Therefore it has a unique local minimizer which is also the global minimizer [Bazaraa et al , 2013]. そのため、一意な局所最小化器があり、これは大域的最小化器でもある [bazaraa et al , 2013]。 0.60
Its time complexity is O(c log c). 時間複雑性は O(c log c) である。 0.87
4.3 Efficient Approximation via Penalty Methods We found two drawbacks of the proposed order restricted data augmentation in Sec 4.2: (1) although the time complexity is O(c log c), the algorithm is hard to compute in parallel in GPU; (2) The order restrictions are too harsh, which overly distorts information of the original soft labels. 4.3 ペナルティ法による効率的な近似 提案した順序制限データ拡張の2つの欠点をSec 4.2で発見した。(1) 時間複雑性はO(c log c)であるが、GPUでは並列計算が困難であり、(2) 順序制限は厳しすぎるため、元のソフトラベルの情報を過度に歪ませる。 0.77
For example, if the probability of original labels are very low, then almost all nodes will be absorbed and averaged. 例えば、元のラベルの確率が非常に低い場合、ほとんど全てのノードが吸収され平均化される。 0.74
This will loss all valid knowledge from the original soft labels. これにより、元のソフトラベルから有効な知識がすべて失われる。 0.64
In this subsection, we loose the order restrictions and propose a more GPU-friendly algorithm. 本稿では,命令制約を緩和し,よりGPUに優しいアルゴリズムを提案する。 0.75
Note that, the partial order E in Eq (10b) introduces the 注意: eq (10b) の部分順序 e は、 0.54
英語(論文から抽出)日本語訳スコア
restrictions to the soft labels, and then uses the isotonic soft labels to limit the student model. ソフトラベルの制限 そして 学生モデルを制限するために イソトニック・ソフトラベルを使う 0.64
If we directly use the partial order to limit the student model instead, the restrictions can be rewritten as: 学生モデルを制限するために部分順序を直接使用すれば、制限を次のように書き換えることができる。 0.75
∀(i, j) ∈ E,S(˜x)i ≥ S(˜x)j シュ(i, j) ∈ E,S( >x)i ≥ S( >x)j 0.76
(11) ⇔S(˜x)1 ≥ S(˜x)2 AND min(S(˜x)1,2) ≥ max(S(˜x)3···c) Note that we can replace min(S(˜x)1,2) ≥ max(S(˜x)3···c) with a simpler term S(˜x)2 ≥ max(S(˜x)3···c) without changing the actual restriction. (11) s(x)1 ≥ s(x)2 と min(s(x)1,2) ≥ max(s(x)3····c) は、min(s(x)1,2) ≥ max(s(x)3···c) をより単純な項 s(x)2 ≥ max(s(x)3····c) に置き換えることができる。 0.89
We use min(S(˜x)1,2) ≥ max(S(˜x)3···c) because we want to ensure the loss below is equally sensitive to both S(˜x)1 and S(˜x)2. 我々は、下記の損失が S( tx)1 と S( tx)2 に等しく敏感であることを保証するため、min(S( tx)1,2) ≥ max(S( tx)3····c) を用いる。 0.80
Objective with Order Restricted Student. 受注制限学生を対象とする。 0.59
We convert the optimization problem subjected to Eq (11) to the unconstraint case in Eq (12) via penalty methods. ペナルティ法を用いて,Eq (11) の最適化問題を Eq (12) の非制約ケースに変換する。 0.82
The idea is to add the restrictions in the loss function. その考え方は、損失関数に制限を加えることである。 0.76
LKD-p = LKD-aug + σE(˜x,˜y)∼Dtrain [max(0,S(˜x)2 − S(˜x)1) + max(0, max(S(˜x)3 ···S(˜x)c) − min(S(˜x)1,S(˜x)2))] LKD-p = LKD-aug + σE( tx, tx, tx, tx, tx ) = LKD-aug + σE( tx, tx, tx, tx ) + max(0, max(S( tx)3 ^·S( tx)c) − min(S( tx)1, S( tx)2))) 0.81
(12) where σ is the penalty coefficients. (12) ここで σ はペナルティ係数である。 0.84
The penalty-based loss LKD-p can be computed in O(c) time and is GPU-friendly (via the max function). ペナルティベースの損失LKD-pはO(c)時間で計算でき、(最大関数を介して)GPUフレンドリーである。
訳抜け防止モード: ペナルティベースの損失 LKD - p は O(c ) 時間で計算できる GPUは(max関数を通じて)フレンドリです。
0.81
5 Experiments 5.1 Setup 5 実験 5.1 セットアップ 0.81
the isotonic はあ? isotonic 0.60
We compare Models. 私たち 比較 モデル。 0.70
We use teacher models and the student models of different architectures to test the effect of our proposed isotonic data augmentation algorithms for knowledge distillation. 提案する等張データ拡張アルゴリズムの知識蒸留効果をテストするために,教師モデルと異なるアーキテクチャの学生モデルを用いて実験を行った。 0.80
We tested the knowledge transfer of the same architecture (e g from ResNet101 to ResNet18), and the knowledge transfer between different architectures (e g from GoogLeNet to ResNet). 我々は、同じアーキテクチャ(resnet101からresnet18へ)の知識転送と、異なるアーキテクチャ(googlenetからresnetへ)間の知識転送をテストしました。 0.65
Competitors. data augmentation-based knowledge distillation with standard knowledge distillation [Hinton et al , 2015]. ライバル。 標準知識蒸留によるデータ拡張に基づく知識蒸留 [Hinton et al , 2015] 0.66
We also compare with the baseline of directly distilling with augmented samples without introducing the order restrictions. また, 直接蒸留法と添加試料法との比較を行った。 0.40
We use this baseline to verify the effectiveness of the order restrictions. この基準を用いて注文制限の有効性を検証する。 0.63
Datasets. We use CIFAR-100 [Krizhevsky et al , 2009], which contains 50k training images with 500 images per class and 10k test images. データセット。 我々は CIFAR-100 [Krizhevsky et al , 2009] を用いて, クラス毎500画像と10kテスト画像からなる50kのトレーニング画像を含む。 0.72
We also use ImageNet, which contains 1.2 million images from 1K classes for training and 50K for validation, to evaluate the scalability of our proposed algorithms. また、トレーニング用に1Kクラスから120万のイメージと検証用に50万のイメージを含むImageNetを使用して、提案アルゴリズムのスケーラビリティを評価します。 0.67
Implementation Details. For CIFAR-100, we train the teacher model for 200 epochs and select the model with the best accuracy on the validation set. 実装の詳細。 CIFAR-100では,200エポックで教師モデルを訓練し,検証セット上で最高の精度でモデルを選択する。 0.76
The knowledge distillation is also trained for 200 epochs. 知識蒸留も200エポックで訓練されている。 0.77
We use SGD as the optimizer. SGDをオプティマイザとして使用しています。 0.43
We initialize the learning rate as 0.1, and decay it by 0.2 at epoch 60, 120, and 160. 学習率を0.1に初期化し,エポック60,120,160で0.2で崩壊させる。 0.76
By default, we set β = 3, σ = 2, which are derived from grid search in {0.5, 1, 2, 3, 4, 5}. 既定では、β = 3, σ = 2 とし、これは {0.5, 1, 2, 3, 4, 5} におけるグリッド探索から導かれる。 0.83
We set τ = 4.5, α = 0.95 from common practice. τ = 4.5, α = 0.95 とする。 0.71
For ImageNet, we train the student model for 100 epochs. ImageNetでは、100エポックで学生モデルをトレーニングします。 0.69
We use SGD as the optimizer with initial learning rate is 0.1. 初期学習率0.1の最適化器としてSGDを使用している。 0.59
We decay the learning rate by 0.1 at epoch 30, 60, 90. 学習率は30,60,90で0.1に低下した。 0.76
We also set β = 3, σ = 2. また、β = 3, σ = 2 とする。 0.74
We follow [Matsubara, 2021] to set τ = 1.0, α = 0.5. 我々は[松原, 2021] を τ = 1.0, α = 0.5 とする。 0.79
Models for ImageNet were trained ImageNetのモデルがトレーニングされた 0.69
on 4 Nvidia Tesla V100 GPUs. Nvidia Tesla V100 GPUを4台搭載。 0.78
Models for CIFAR-100 were trained on a single Nvidia Tesla V100 GPU. CIFAR-100のモデルは1台のNvidia Tesla V100 GPUで訓練された。 0.73
5.2 Main Results Results on CIFAR-100. 5.2 CIFAR-100の主な結果 0.84
We show the classification accuracies of the standard knowledge distillation and our proposed isotonic data augmentation in Table 1. 標準知識蒸留の分類精度と,提案した等速データ拡張について,表1で示す。 0.76
Our proposed algorithms effectively improve the accuracies compared to the standard knowledge distillation. 提案アルゴリズムは,標準的な知識蒸留と比較して精度を効果的に向上する。 0.68
This finding is applicable to different data augmentation techniques (i.e. この発見は異なるデータ拡張技術(すなわち)に適用できる。 0.78
CutMix and Mixup) and different network structures. カットミックスとミックスアップ)と異なるネットワーク構造。 0.83
In particular, the accuracy of our algorithms even outperform the teacher models. 特に、我々のアルゴリズムの精度は教師モデルよりも優れています。 0.73
This shows that by introducing the order restriction, our algorithms effectively calibrate the soft labels and reduce the error from the teacher model. これは,命令制限を導入することで,ソフトラベルを効果的に校正し,教師モデルから誤差を低減できることを示す。 0.75
As Mixup usually performs better than CutMix, we only use Mixup as data augmentation in the rest experiments. mixupは通常、cutmixよりもパフォーマンスが良いので、残りの実験でデータ拡張としてのみmixupを使用します。 0.70
Results on ImageNet. ImageNetによる結果。 0.80
We display the experimental results on ImageNet in Table 2. 実験結果は、ImageNet in Table 2に表示されます。 0.80
We use the same settings as [Tian et al , 2019], namely using ResNet-34 as the teacher and ResNet-18 as the student. 私たちは [Tian et al , 2019] と同じ設定を使用し、ResNet-34 を教師、ResNet-18 を学生として使用しています。 0.72
The results show that isotonic data augmentation algorithms are more effective than the original data augmentation technology. その結果,等速データ拡張アルゴリズムは元のデータ拡張技術よりも有効であることがわかった。 0.70
This validates the scalability of the isotonic data augmentation. これはisotonicデータ拡張のスケーラビリティを検証する。 0.64
We found that KD-p is better on CIFAR-100, while KDi is better on ImageNet. kd-pはcifar-100で、kdiはimagenetより優れていることがわかりました。 0.61
We think this is because ImageNet has more categories (i.e. これは、ImageNetがより多くのカテゴリ(つまり)を持っているためだと思います。 0.55
1000), which makes order violations more likely to appear. 命令違反が出現する可能性が高くなる。 0.34
Therefore, strict isotonic regression in KD-i is required to eliminate order violations. したがって、KD-iの厳密な等方性回帰は順序違反を排除するために必要である。 0.45
On the other hand, since CIFAR-100 has fewer categories, the original soft labels are more accurate. 一方、CIFAR-100はカテゴリが少ないため、元のソフトラベルの方が正確である。 0.74
Therefore, introducing loose restrictions through KD-i is enough. したがって、KD-iによるゆるい制限を導入するだけで十分である。 0.49
As a result, we suggest to use KD-i if severe order violation occurs. その結果,厳密な順序違反が発生した場合,KD-iの使用を提案する。 0.60
Ablation. In Table 1, we also compare with the conventional data augmentation without introducing order restrictions (i.e. アブレーション 表1では、注文制限を導入することなく、従来のデータ拡張と比較する(例)。 0.61
KD-aug). It can be seen that by introducing the order restriction, our proposed isotonic data augmentation consistently outperforms the conventional data augmentation. KD-aug)。 順序制限を導入することで,提案する等張的データ拡張が従来のデータ拡張を一貫して上回っていることが分かる。 0.69
This verifies the advantages of our isotonic data augmentation over the original data augmentation. これにより、アイソトニックデータ拡張の利点を元のデータ拡張よりも検証できる。 0.66
5.3 Effect of Order Restrictions Our basic intuition of this paper is that, order violations of soft labels will injure the knowledge distillation. 5.3 注文制限の効果 本論文の基本的な直観は、ソフトラベルの注文違反が知識蒸留を損なうことである。 0.76
In order to verify this intuition more directly, we evaluated the performance of knowledge distillation under different levels of order violations. この直感をより直接的に検証するために,異なるレベルの注文違反下での知識蒸留の性能を評価した。 0.71
Specifically, we use the Adapted IRT algorithm to eliminate the order violations of soft labels for 0%, 25%,··· , 100% augmented samples, respectively. 具体的には、適応IRTアルゴリズムを用いて、ソフトラベルの順序違反を0%、25%、··· 、100%強化サンプルで除去する。 0.68
We show in Fig 4 the effectiveness of eliminating different proportions of order violations in CIFAR-100. 図4では、CIFAR-100における命令違反の異なる割合を除去する効果を示す。 0.66
As more violations are calibrated, the accuracy of knowledge distillation continues to increase. より多くの違反が校正されるにつれて、知識蒸留の精度は上昇し続けている。 0.59
This verifies that the order violations injure the knowledge distillation. これは、注文が知識蒸留を損なうことを検証する。 0.58
5.4 Efficiency of Isotonic Data Augmentation We mentioned that KD-p based on penalty methods is more efficient and GPU-friendly than KD-i. 5.4 Isotonic Data Augmentationの効率 ペナルティ法に基づくKD-pはKD-iよりも効率的でGPUフレンドリである。 0.73
In this subsection, we verified the efficiency of different algorithms. 本稿では,異なるアルゴリズムの効率性を検証する。 0.76
We selected 選びました 0.60
英語(論文から抽出)日本語訳スコア
ResNet101 ResNet50 ResNext50 GoogleNet DenseNet121 SeResNet101 SeResNet101 DenseNet121 ResNet18 ResNet18 ResNet18 ResNet18 ResNet101 ResNet50 ResNext50 GoogleNet DenseNet121 SeResNet101 DenseNet121 ResNet18 ResNet18 ResNet18 ResNet18 ResNet18 0.63
SeResNet18 SeResNet18 Avg. SeResNet18 SeResNet18 Avg 0.87
ResNet18 ResNet18 ResNet18 ResNet18 0.78
Teacher Student KD (KD Mixup)KD-aug (KD Mixup)KD-i (KD Mixup)KD-p (KD CutMix)KD-aug (KD CutMix)KD-i (KD CutMix)KD-p CRD (CRD Mixup)CRD-aug (CRD Mixup)CRD-i (CRD Mixup)CRD-p (CRD CutMix)CRD-aug (CRD CutMix)CRD-i (CRD CutMix)CRD-p 教員生KD-aug (KD Mixup)KD-i (KD CutMix)KD-aug (KD CutMix)KD-aug (KD CutMix)KD-p CRD (CRD Mixup)CRD-aug (CRD Mixup)CRD-i (CRD CutMix)CRD-aug (CRD CutMix)CRD-i (CRD CutMix)CRD-i (CRD CutMix)CRD-p 0.97
78.28 77.55 79.78 79.39 79.75 80.56 79.73 79.95 79.93 79.76 79.52 79.97 79.91 79.77 80.04 79.91 78.28 77.55 79.78 79.39 79.75 80.56 79.73 79.95 79.93 79.76 79.52 79.97 79.91 79.77 80.04 79.91 0.41
78.85 77.55 79.41 79.75 80.13 80.45 80.02 80.02 80.51 79.75 79.38 79.84 79.82 79.63 80.14 80.19 78.85 77.55 79.41 79.75 80.13 80.45 80.02 80.02 80.51 79.75 79.38 79.84 79.82 79.63 80.14 80.19 0.41
78.98 77.55 79.88 80.14 80.35 80.67 80.19 80.67 80.34 79.59 80.03 80.49 80.04 79.96 80.62 80.11 78.98 77.55 79.88 80.14 80.35 80.67 80.19 80.67 80.34 79.59 80.03 80.49 80.04 79.96 80.62 80.11 0.41
78.31 77.55 79.33 80.15 80.25 80.35 79.71 79.98 79.96 79.74 79.92 80.01 80.16 80.13 80.37 80.28 78.31 77.55 79.33 80.15 80.25 80.35 79.71 79.98 79.96 79.74 79.92 80.01 80.16 80.13 80.37 80.28 0.41
78.84 77.55 79.84 79.75 80.38 80.36 79.77 80.27 79.98 79.74 80.05 80.15 81.03 80.18 80.59 80.59 78.84 77.55 79.84 79.75 80.38 80.36 79.77 80.27 79.98 79.74 80.05 80.15 81.03 80.18 80.59 80.59 0.41
78.08 77.55 79.41 78.35 79.73 80.11 79.19 79.51 79.57 79.22 79.69 79.45 79.93 79.17 79.56 79.77 78.08 77.55 79.41 78.35 79.73 80.11 79.19 79.51 79.57 79.22 79.69 79.45 79.93 79.17 79.56 79.77 0.41
78.08 77.21 77.45 78.94 78.83 79.25 78.55 79.05 79.13 79.35 79.41 79.77 80.19 79.49 79.51 80.01 78.08 77.21 77.45 78.94 78.83 79.25 78.55 79.05 79.13 79.35 79.41 79.77 80.19 79.49 79.51 80.01 0.41
78.84 77.21 79.65 79.52 80.01 80.49 80.23 80.45 80.83 79.86 80.43 80.47 80.65 80.37 80.52 80.48 78.84 77.21 79.65 79.52 80.01 80.49 80.23 80.45 80.83 79.86 80.43 80.47 80.65 80.37 80.52 80.48 0.41
79.34 79.50 79.93 80.28 79.67 79.99 80.03 79.63 79.81 80.01 80.21 79.84 80.17 80.17 79.34 79.50 79.93 80.28 79.67 79.99 80.03 79.63 79.81 80.01 80.21 79.84 80.17 80.17 0.41
Table 1: Results of CIFAR-100. 表1:CIFAR-100の結果。 0.84
KD means standard knowledge distillation [Hinton et al , 2015] and CRD means contrastive representation distillation [Tian et al , 2019]. KDは標準知識蒸留(Hinton et al , 2015)、CRDは対照的表現蒸留(Tian et al , 2019)を意味する。 0.74
∗−aug means knowledge distillation using mixup-based data augmentation without calibrating the soft labels, ∗ − i means soft labels by isotonic regression and ∗ − p means soft labels by the efficient approximation. ∗-aug はソフトラベルを校正せずにミックスアップベースのデータ拡張を用いた知識蒸留、∗ − i はアイソトニック回帰によるソフトラベル、∗ − p は効率的な近似によるソフトラベルである。 0.59
top-1/top-5 68.79/88.24 69.71/89.85 69.04/88.93 top-1/top-5 68.79/88.24 69.71/89.85 69.04/88.93 0.20
KD-aug KD-i KD-aug KD-i 0.59
KD-p Table 2: Results of ImageNet. KD-P 表2: ImageNetの結果。 0.64
Figure 4: Effect of introducing order restrictions to different ratios of samples. 図4: サンプルの異なる比率に注文制限を導入することの影響。 0.85
Average over 5 runs. Restricting more samples will improve the effect. 平均5回以上。 より多くのサンプルを制限すれば効果が向上する。 0.58
Figure 5: Effect of different σs. 図5:異なるσの影響。 0.73
σ = 2 is a recommended value as it outperforms other values in most cases. σ = 2 は、ほとんどのケースで他の値を上回るため、推奨値である。 0.83
Mixup CutMix Mixup CutMix 0.85
KD 1.00x 1.00x KD 1.00x 1.00x 0.47
KD-aug KD-i KD-p 1.02x 1.02x 1.01x 1.01x KD-aug KD-i KD-p 1.02x 1.02x 1.01x 1.01x 0.36
3.33x 3.05x 3.33x 3.05x 0.39
Table 3: Time costs for different data augmentation algorithms. 表3: 異なるデータ拡張アルゴリズムの時間コスト。 0.71
models from Table 1 and counted their average training time of one epoch. 表1のモデルでは、トレーニング時間の平均は1時間でした。 0.76
In Table 3, taking the time required for standard KD as the unit 1, we show the time of different data augmentation algorithms. 表3では、標準kdに要する時間を単位1として、異なるデータ拡張アルゴリズムの時間を示す。 0.60
It can be seen that KD-p based on penalty methods require almost no additional time. ペナルティ法に基づくKD-pは、ほとんど追加の時間を必要としない。 0.66
This shows that KD-p is more suitable for large scale data in terms of efficiency. これにより、KD-pは効率の点で大規模データに適していることが分かる。 0.64
5.5 Effect of the Looseness of Order Restrictions The coefficient σ in the Eq (12) is the key hyper-parameter that controls the looseness of KD-p. 5.5 順序制限の緩みの影響 Eq (12) における係数 σ は KD-p のゆるみを制御する鍵ハイパーパラメータである。 0.90
It can be found that for most models, the model performs best when σ = 2.0. ほとんどのモデルでは、σ = 2.0 の場合、モデルが最もよく機能する。 0.81
Therefore, σ = 2 is a recommended value for real tasks. したがって、σ = 2 は実タスクの推奨値である。 0.79
KD-aug KD-i KD-p KD-aug KD-i KD-p 0.47
SST 97.35 97.85 98.24 SST 97.35 97.85 98.24 0.53
TREC DBPedia 99.72 99.78 99.95 TREC DBPedia 99.72 99.78 99.95 0.59
98.54 98.95 99.01 98.54 98.95 99.01 0.47
Table 4: Results on several NLP tasks. 表4: いくつかのNLPタスクの結果。 0.75
5.6 Effect on NLP Tasks Our proposed algorithm can also be extended to NLP tasks and Table 4 shows the results on several NLP tasks including SST [Socher et al , 2013], TREC [Li and Roth, 2002] and DBPedia[Auer et al , 2007]. 5.6 NLPタスクへの影響 提案アルゴリズムはNLPタスクにも拡張可能で,表4ではSST[Socher et al , 2013], TREC [Li and Roth, 2002], DBPedia[Auer et al , 2007]などのNLPタスクに対する結果を示す。 0.82
We use Bert[Devlin et al , 2019] as the teacher and DistilBert[Sanh et al , 2019] as the student. bert[devlin et al , 2019]を教師、distilbert[sanh et al , 2019]を学生として使用しています。 0.77
We leverage the mixup method in Mixup-Transformer[Sun et al., 2020], and the results indicate that comparing to KD-aug, KD-i and KD-p will improve student models’ accuracy. 我々はMixup-Transformer[Sun et al., 2020]のミックスアップ手法を活用し,KD-aug,KD-i,KD-pと比較して学生モデルの精度が向上することを示す。 0.72
6 Conclusion We reveal that the conventional data augmentation techniques for knowledge distillation have critical order violations. 6結語 知識蒸留における従来のデータ拡張技術は, 命題違反であることが明らかとなった。 0.63
In this paper, we use isotonic regression (IR) - a classic statistical algorithm - to eliminate the rank violations. 本稿では、古典的な統計アルゴリズムである等調回帰(IR)を用いてランク違反を除去する。 0.70
We adapt the traditional IRT-BIN algorithm to the adapted IRT algorithm to generate concordant soft labels for augmented samples. 従来のirt-binアルゴリズムを適応irtアルゴリズムに適用し,拡張サンプルに対する一致ソフトラベルを生成する。 0.66
We further propose a GPU-friendly penalty-based algorithm. さらに,GPUフレンドリなペナルティベースのアルゴリズムを提案する。 0.59
We have conducted a variety of experiments in different datasets with different data augmentation techniques and verified the effectiveness of our proposed isotonic data augmentation algorithms. 我々は,様々なデータ拡張手法を用いて様々なデータセットで様々な実験を行い,提案する等張データ拡張アルゴリズムの有効性を検証した。 0.76
We also directly verified the effect of introducing rank restrictions on data augmentation-based knowledge distillation. また,データ拡張に基づく知識蒸留におけるランク制限の導入効果を直接検証した。 0.69
Acknowledgements This paper was supported by National Natural Science Foundation of China (No. この論文は中国国立自然科学財団が支持した(No。 0.71
61906116), by Shanghai Sailing Program (No. 61906116, by Shanghai Sailing Program (No。 0.72
19YF1414700). 19YF14700)。 0.69
0.000.250.500.751.00 Ratio79.5079.7580.00 80.2580.5080.7581.00 AccuracyResNet50-> ;ResNet18NasNet->ResNet180.512345Coef ficient79.079.580.08 0.5AccuracyResNet50- >ResNet18ResNet101-&g t;ResNet18ResNext50-&g t;ResNet18GoogleNet-&g t;ResNet18 0.000.250.500.751.00 Ratio79.5079.7580.25 80.5080.7581.00Accur acyResNet50->ResNet18NasNet->ResNet180.512345Coef ficient79.079.580.08 0.5AccuracyResNet50- >ResNet18ResNet101-&g t;ResNet18ResNext50-&g t;ResNet18GoogleNet-&g t;ResNet18GoogleNet-&g t;ResNet18 0.23
英語(論文から抽出)日本語訳スコア
References [Acton and Bovik, 1998] Scott T Acton and Alan C Bovik. 参考文献 [acton and bovik, 1998] scott t acton and alan c bovik. 0.73
Nonlinear image estimation using piecewise and local image models. 分割および局所画像モデルを用いた非線形画像推定 0.83
TIP, 7(7):979–991, 1998. TIP, 7(7):979-991, 1998。 0.83
[Auer et al , 2007] S¨oren Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak, and Zachary Ives. [Auer et al , 2007]S soren Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak, Zachary Ives ] 0.80
Dbpedia: A nucleus for a web of open data. Dbpedia: オープンデータのWebのための核。 0.74
In The semantic web, pages 722–735. セマンティックウェブでは、722-735頁。 0.76
Springer, 2007. 2007年、スプリンガー。 0.55
[Barlow and Brunk, 1972] Richard E Barlow and Hugh D Brunk. [Barlow and Brunk, 1972]Richard E BarlowとHugh D Brunk。 0.78
The isotonic regression problem and its dual. 等方性回帰問題とその双対 0.51
JASA, 67(337):140–147, 1972. JASA, 67(337):140-147, 1972。 0.88
[Bazaraa et al , 2013] Mokhtar S Bazaraa, Hanif D Sherali, and Chitharanjan M Shetty. [Bazaraa et al , 2013]Mokhtar S Bazaraa, Hanif D Sherali, Chitharanjan M Shetty 0.71
Nonlinear programming: theory and algorithms. 非線形プログラミング:理論とアルゴリズム。 0.84
John Wiley & Sons, 2013. ジョン・ワイリー&サンズ、2013年。 0.54
[Bochkovskiy et al , 2020] Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao. Bochkovskiy et al , 2020]Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao 0.82
Yolov4: Optimal speed and accuracy of object detection. yolov4: オブジェクト検出の最適な速度と精度。 0.92
arXiv preprint arXiv:2004.10934, 2020. arXiv preprint arXiv:2004.10934, 2020 0.81
[Cho and Hariharan, 2019] Jang Hyun Cho and Bharath Hariharan. [Cho and Hariharan, 2019]Jang Hyun ChoとBharath Hariharan。 0.77
On the efficacy of knowledge distillation. 知識蒸留の有効性について 0.67
In ICCV, pages 4794–4802, 2019. ICCV, page 4794–4802, 2019。 0.85
[Das et al , 2020] Deepan Das, Haley Massa, Abhimanyu Kulkarni, and Theodoros Rekatsinas. [Das et al , 2020]Deepan Das、Haley Massa、Abhimanyu Kulkarni、Theodoros Rekatsinas。 0.70
An empirical analysis of the impact of data augmentation on knowledge distillation. 知識蒸留におけるデータ拡張の効果に関する実証分析 0.68
arXiv preprint arXiv:2006.03810, 2020. arXiv preprint arXiv:2006.03810, 2020 0.81
[Devlin et al , 2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Devlin et al , 2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova。 0.80
Bert: Pre-training of deep bidirectional transformers for language understanding, 2019. Bert: 2019年、言語理解のための双方向トランスフォーマーの事前トレーニング。 0.77
[Ding et al , 2019] Qianggang Ding, Sifan Wu, Hao Sun, Jiadong Guo, and Shu-Tao Xia. [Ding et al , 2019]Qiangang Ding, Sifan Wu, Hao Sun, Jiadong Guo, Shu-Tao Xia。 0.82
Adaptive regularization of labels. ラベルの適応正規化。 0.74
arXiv preprint arXiv:1908.05474, 2019. arXiv preprint arXiv:1908.05474, 2019 0.81
[Harris et al , 2020] Ethan [Harris et al , 2020]Ethan 0.73
Antonia Marcu, Matthew Painter, Mahesan Niranjan, and Adam Pr¨ugelBennett Jonathon Hare. アントニー・マルク、マシュー・ペッカー、マヘサン・ニランジャン、アダム・プ・ジュゲル・ベネット、ジョナソン・ヘア。 0.38
Fmix: Enhancing mixed sample arXiv preprint arXiv:2002.12047, data augmentation. fmix: enhanced mixed sample arxiv preprint arxiv:2002.12047, data augmentation。 0.65
2(3):4, 2020. 2(3):4, 2020. 0.94
Harris, [Hinton et al , 2015] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Harris Hinton et al , 2015] Geoffrey Hinton氏、Oriol Vinyals氏、Jeff Dean氏。 0.65
Distilling the knowledge in a neural network. ニューラルネットワークで知識を蒸留する。 0.66
arXiv preprint arXiv:1503.02531, 2015. arXiv preprint arXiv:1503.02531, 2015 0.81
[Kendall, 1938] M. G. Kendall. [ケンドール, 1938]M.G.ケンドール。 0.66
A new measure of rank cor- ランクcorの新たな尺度- 0.75
relation. Biometrika, 30(1/2):81–93, 1938. 関係ある バイオメトリカ 30(1/2):81-93, 1938。 0.63
[Krizhevsky et al , 2009] Alex Krizhevsky, Geoffrey Hinton, et al Learning multiple layers of features from tiny images. [krizhevsky et al , 2009] alex krizhevsky氏、geoffrey hinton氏など、小さなイメージから複数の機能レイヤを学習しています。 0.76
2009. [Li and Roth, 2002] Xin Li and Dan Roth. 2009. [Li and Roth, 2002]Xin LiとDan Roth。 0.83
Learning question classifiers. In COLING, 2002. 学習問題 分類器 2002年、コリング。 0.63
[Mahsereci et al , 2017] Maren Mahsereci, Lukas Balles, Christoph Lassner, and Philipp Hennig. Maren Mahsereci氏、Lukas Balles氏、Christoph Lassner氏、Philipp Hennig氏。 0.49
Early stopping without a validation set. 検証セットなしで早期停止。 0.68
arXiv preprint arXiv:1703.09580, 2017. arXiv preprint arXiv:1703.09580, 2017 0.79
[Matsubara, 2021] Yoshitomo Matsubara. (松原、2021年)松原義朝 0.41
torchdistill: A modular, configuration-driven framework for knowledge torchdistill: 知識のためのモジュール化された構成駆動フレームワーク 0.67
distillation. Research in Pattern Recognition, pages 24–44, 2021. 蒸留 パターン認識の研究、24-44頁、2021年。 0.55
In International Workshop on Reproducible 再現性に関する国際ワークショップで 0.68
[Maxwell and Muckstadt, 1985] William L Maxwell and John A Muckstadt. [Maxwell and Muckstadt, 1985]William L MaxwellとJohn A Muckstadt。 0.83
Establishing consistent and realistic reorder intervals in production-distribut ion systems. 生産分配システムにおける一貫性と現実的なリオーダー間隔の確立。 0.57
OR, 33(6):1316–1341, 1985. OR, 33(6):1316-1341, 1985。 0.81
[Niculescu-Mizil and Caruana, 2005] Alexandru NiculescuMizil and Rich Caruana. [Niculescu-Mizil and Caruana, 2005]Alexandru NiculescuMizilとRich Caruana。 0.89
Predicting good probabilities with supervised learning. 教師付き学習による良好な確率予測 0.68
In ICML, pages 625–632, 2005. ICML』625-632頁、2005年。 0.75
[Pardalos and Xue, 1999] Panos M Pardalos and Guoliang Xue. [Pardalos and Xue, 1999]Panos M PardalosとGuoliang Xue。 0.78
Algorithms for a class of isotonic regression problems. 等張回帰問題のクラスのためのアルゴリズム。 0.63
Algorithmica, 23(3):211–222, 1999. Algorithmica, 23(3):211–222, 1999。 0.87
[Sanh et al , 2019] Victor Sanh, Lysandre Debut, [Sanh et al , 2019]Victor Sanh, Lysandre Debut, 0.82
Julien Chaumond, and Thomas Wolf. ジュリアン・チャウモンド、トーマス・ウルフ。 0.48
Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. ディチルバート(ditilbert)は、より小さく、速く、安く、より軽量の蒸留酒である。 0.56
arXiv preprint arXiv:1910.01108, 2019. arXiv preprint arXiv:1910.01108, 2019 0.81
[Socher et al , 2013] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts. [socher et al, 2013] richard socher氏、alex perelygin氏、jean wu氏、jason chuang氏、christopher d manning氏、andrew y ng氏、christopher potts氏。
訳抜け防止モード: [Socher et al, 2013 ] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng クリストファー・ポッツ(Christopher Potts)。
0.88
Recursive deep models for semantic compositionality over a sentiment treebank. 感情木バンク上の意味的構成性の再帰的深部モデル 0.62
In EMNLP, pages 1631–1642, 2013. EMNLP』1631-1642頁、2013年。 0.67
[Sun et al , 2020] Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip S Yu, and Lifang He. [Sun et al , 2020]Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip S Yu, Lifang He。 0.78
Mixuptransfomer: Dynamic data augmentation for nlp tasks. mixuptransfomer: nlpタスク用の動的データ拡張。 0.78
arXiv preprint arXiv:2010.02394, 2020. arXiv preprint arXiv:2010.02394, 2020 0.80
[Takahashi et al , 2019] Ryo Takahashi, Takashi Matsubara, and Kuniaki Uehara. (高橋ら、2019年)高橋良、松原孝、上原邦明 0.40
Data augmentation using random image cropping and patching for deep cnns. 深部cnnに対するランダム画像トリミングとパッチ適用によるデータ拡張 0.72
TCSVT, 2019. tcsvt、2019年。 0.65
[Tian et al , 2019] Yonglong Tian, Dilip Krishnan, [Tian et al , 2019]Yonglong Tian, Dilip Krishnan, 0.74
Phillip Isola. フィリップ・アイソラ。 0.59
Contrastive representation distillation. ICLR, 2019. 対照的な表現蒸留。 ICLR、2019年。 0.72
and In [Wang et al , 2020a] Dongdong Wang, Yandong Li, Liqiang Wang, and Boqing Gong. そして [wang et al, 2020a] dongdong wang, yandong li, liqiang wang, boqing gong。 0.53
Neural networks are more productive teachers than human raters: Active mixup for dataefficient knowledge distillation from a blackbox model. ニューラルネットワークは人間よりも生産的な教師である: ブラックボックスモデルからのデータ効率のよい知識蒸留のためのアクティブなミキシング。 0.66
In CVPR, pages 1498–1507, 2020. CVPR』1498-1507頁、2020年。 0.75
[Wang et al , 2020b] Huan Wang, Suhas Lohit, Michael Jones, and Yun Fu. [Wang et al , 2020b]Huan Wang, Suhas Lohit, Michael Jones, Yun Fu。 0.82
Knowledge distillation thrives on data augmentation. 知識蒸留はデータ増量によって成長する。 0.64
arXiv preprint arXiv:2012.02909, 2020. arXiv preprint arXiv:2012.02909, 2020 0.81
[Wen et al , 2019] Tiancheng Wen, Shenqi Lai, and XuemImprove knowledge arXiv preprint [Wen et al , 2019]Tiancheng Wen,Shenqi Lai,XuemImprove Knowledge arXiv preprint 0.78
ing Qian. distillation with better supervision. ing Qian より良い監視で蒸留します 0.59
arXiv:1911.07471, 2019. arXiv:1911.07471, 2019。 0.64
Preparing lessons: [Yang et al , 2019] Chenglin Yang, Lingxi Xie, Siyuan Qiao, and Alan L Yuille. レッスンの準備 [Yang et al , 2019]Chenglin Yang、Lingxi Xie、Siyuan Qiao、Alan L Yuille。 0.67
Training deep neural networks in generations: A more tolerant teacher educates better students. 深層ニューラルネットワークのトレーニング: より寛容な教師は、より良い生徒を教育する。 0.76
In AAAI, volume 33, pages 5628–5635, 2019. aaai, volume 33, pages 5628–5635, 2019 (英語) 0.68
[Yun et al , 2019] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. [Yun et al , 2019]Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, Youngjoon Yoo。 0.78
Cutmix: Regularization strategy to train strong classifiers In ICCV, pages 6023–6032, with localizable features. cutmix: iccv, pages 6023–6032で強力な分類器を訓練するための正規化戦略。 0.68
2019. [Zhang et al , 2018] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. 2019. [Zhang et al , 2018]Hongyi Zhang、Moustapha Cisse、Yann N Dauphin、David Lopez-Paz。 0.81
mixup: Beyond empirical risk minimization. Mixup: 経験的リスク最小化を超えて。 0.59
In ICLR, 2018. 2018年、ICLR。 0.62
               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。