論文の概要、ライセンス

# (参考訳) ELODI:Positive-Congr uent Trainingのためのロジット差分抑制 [全文訳有]

ELODI: Ensemble Logit Difference Inhibition for Positive-Congruent Training ( http://arxiv.org/abs/2205.06265v2 )

ライセンス: CC BY 4.0
Yue Zhao, Yantao Shen, Yuanjun Xiong, Shuo Yang, Wei Xia, Zhuowen Tu, Bernt Schiele, Stefano Soatto(参考訳) 負のフリップは、レガシーモデルを新しいものに置き換えた場合に、分類システムで発生するエラーである。 正フリップ率(NFR)を下げる既存の方法は、モデル蒸留による全体的な精度を犠牲にするか、推論コストを禁ずるアンサンブルを使用するかのいずれかである。 本稿では,単一モデルの推論コストにおいて,誤り率とNFRの両方でパラゴン性能を実現する分類システムを訓練する方法を提案する。 本研究では, 一般蒸留目的であるロジット差抑制法(ldi)を導入し, 通常の蒸留法と一致させることなく, 新旧モデル間のロジットの変化をペナライズする。 LDIは、NFRとともにエラー率を減らすためのモデル柔軟性を提供する。 この方法はLDIの参照モデルとして同質アンサンブルを使用するため、Ensemble LDI(ELODI)と呼ばれる。 参照モデルは、推論時に単一のモデルに置換することができる。 この手法では、負のフリップは一般に決定境界に近づかないが、エローディによって減少するロジット間の距離の偏差が大きいという観測を活用している。

Negative flips are errors introduced in a classification system when a legacy model is replaced with a new one. Existing methods to reduce the negative flip rate (NFR) either do so at the expense of overall accuracy using model distillation, or use ensembles, which multiply inference cost prohibitively. We present a method to train a classification system that achieves paragon performance in both error rate and NFR, at the inference cost of a single model. Our method introduces a generalized distillation objective, Logit Difference Inhibition (LDI), that penalizes changes in the logits between the new and old model, without forcing them to coincide as in ordinary distillation. LDI affords the model flexibility to reduce error rate along with NFR. The method uses a homogeneous ensemble as the reference model for LDI, hence the name Ensemble LDI, or ELODI. The reference model can then be substituted with a single model at inference time. The method leverages the observation that negative flips are typically not close to the decision boundary, but often exhibit large deviations in the distance among their logits, which are reduced by ELODI.
公開日: Fri, 13 May 2022 19:12:27 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
ELODI: Ensemble Logit Difference Inhibition for Positive-Congruent Training ELODI:Positive-Congr uent Trainingのためのロジット差分抑制 0.78
Yue Zhao1,* Yantao Shen2,† Yuanjun Xiong2 Yue Zhao1,* Yantao Shen2,... Yuanjun Xiong2 0.43
Zhuowen Tu2 Bernt Schiele2 Zhuowen Tu2 Bernt Schiele2 0.42
Shuo Yang2 Wei Xia2 シュオヤン2 ウェイxia2 0.69
Stefano Soatto2 stefano soatto2 0.35
1UT Austin 2AWS AI Labs 1UTオースチン 2AWS AI Labs 0.56
yzhao@cs.utexas.edu, {yantaos,yuanjx,shuoy ,wxia,ztu,soattos}@amazon.com, bschiel@amazon.de yzhao@cs.utexas.edu, {yantaos,yuanjx,shuoy ,wxia,ztu,soattos}@amazon.com, bschiel@amazon.de 0.44
2 2 0 2 y a M 3 1 2 2 0 2 y a M 3 1 0.43
] G L . s c [ ] G L。 sc [ 0.47
2 v 5 6 2 6 0 2 v 5 6 2 6 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract Negative flips are errors introduced in a classification system when a legacy model is replaced with a new one. 概要 負のフリップは、レガシーモデルを新しいものに置き換えた場合に、分類システムで発生するエラーである。 0.60
Existing methods to reduce the negative flip rate (NFR) either do so at the expense of overall accuracy using model distillation, or use ensembles, which multiply inference cost prohibitively. 正フリップ率(NFR)を下げる既存の方法は、モデル蒸留による全体的な精度を犠牲にするか、推論コストを禁ずるアンサンブルを使用するかのいずれかである。 0.69
We present a method to train a classification system that achieves paragon performance in both error rate and NFR, at the inference cost of a single model. 本稿では,単一モデルの推論コストにおいて,誤り率とNFRの両方でパラゴン性能を実現する分類システムを訓練する方法を提案する。 0.82
Our method introduces a generalized distillation objective, Logit Difference Inhibition (LDI), that penalizes changes in the logits between the new and old model, without forcing them to coincide as in ordinary distillation. 本研究では, 一般蒸留目的であるロジット差抑制法(ldi)を導入し, 通常の蒸留法と一致させることなく, 新旧モデル間のロジットの変化をペナライズする。 0.79
LDI affords the model flexibility to reduce error rate along with NFR. LDIは、NFRとともにエラー率を減らすためのモデル柔軟性を提供する。 0.61
The method uses a homogeneous ensemble as the reference model for LDI, hence the name Ensemble LDI, or ELODI. この方法はLDIの参照モデルとして同質アンサンブルを使用するため、Ensemble LDI(ELODI)と呼ばれる。 0.69
The reference model can then be substituted with a single model at inference time. 参照モデルは、推論時に単一のモデルに置換することができる。 0.78
The method leverages the observation that negative flips are typically not close to the decision boundary, but often exhibit large deviations in the distance among their logits, which are reduced by ELODI. この手法では、負のフリップは一般に決定境界に近づかないが、エローディによって減少するロジット間の距離の偏差が大きいという観測を活用している。 0.77
1. Introduction The rapid development of visual recognition in recent years has led to the need for frequently updating existing models in production-scale systems. はじめに 近年の視覚認識の急速な発展により、生産規模システムにおける既存モデルの頻繁な更新が求められている。 0.61
However, when replacing a legacy classification model, one has to weigh the benefit of decreased error rate against the risk of introducing new errors that may disrupt post-processing pipelines [54] or cause friction with human users [4]. しかし,従来の分類モデルを置き換える場合には,後処理パイプラインの障害やユーザとの摩擦を引き起こす可能性のある新たなエラーの発生リスクに対して,エラー率の低下を考慮しなければならない。 0.79
Positive-Congruent Training (PC-Training) refers to any training procedure that minimizes the negative flip rate (NFR) along with the error rate (ER). PC-Training(PC-Congr uent Training)とは、誤り率(ER)とともに負のフリップ率(NFR)を最小化する訓練手順を指す。 0.82
Negative flips are instances that are misclassified by the new model, but correctly classified by the old one. 負のフリップは、新しいモデルによって誤分類されるが、古いモデルによって正しく分類されるインスタンスである。
訳抜け防止モード: 負の反転は 新しいモデルでは誤分類されるが、古いモデルでは正しく分類される。
0.73
They are manifest in both visual and natural language 視覚言語と自然言語の両方に現れます 0.70
*The work was done during an internship at AWS. ※作業はAWSのインターンシップ中に行われました。 0.84
†Corresponding author. Figure 1. 作家。 図1に示す。 0.42
In ELODI, one model is trained using the Logit Difference Inhibition (LDI) loss w.r.t. an ensemble of m models with its same architecture. ELODIでは、1つのモデルを同じアーキテクチャを持つmモデルのアンサンブルであるロジット差分抑制(LDI)損失を用いて訓練する。 0.86
The result is a single model which achieves a significantly reduced negative flip rate (NFR) with the other. その結果、負のフリップ率(nfr)が大幅に低減された1つのモデルが得られる。 0.76
tasks [53, 54]. タスク[53, 54] 0.60
They are typically not close to the decision boundary, but instead new high-confidence mistakes that lead to perceived “regression” in performance compared to the old model. それらは通常、決定境界に近づきませんが、代わりに、古いモデルと比べてパフォーマンスの“回帰”を感じるような、新しい高信頼の失敗につながります。 0.67
Aside from compatibility with humans or across models with different architectures, inconsistencies are present even in identical architectures trained from different initial conditions, or with different data augmentations, or using different sampling of mini-batches. 人間との互換性や異なるアーキテクチャを持つモデルとの互換性の他に、異なる初期条件からトレーニングされた同一アーキテクチャや、異なるデータ拡張、あるいは異なるミニバッチのサンプリングを使用する場合においても、矛盾が生じる。 0.67
[54] have shown that in state-of-the-art image classification models, where a 1% improvement is considered significant, NFR can be in the order of 4∼5% even across models that have identical ER. [54] は,1%改良が重要と考えられる最先端画像分類モデルにおいて,同一ERを有するモデルであっても,NFRの順は4~5%であることを示した。 0.76
Two questions A naive approach to cross-model compatibility is to bias one model to mimic the other, as done in model distillation [24]. 2つの疑問 クロスモデル互換性に対するナイーブなアプローチは、モデルの蒸留[24]でなされるように、一方のモデルが他方を模倣するようにバイアスを掛けることです。
訳抜け防止モード: 2つの疑問 クロスに対するナイーブなアプローチ - モデル互換性とは モデル蒸留[24]で行われているように、一方のモデルを他のモデルを模倣する。
0.65
In this case, however, compatibility comes at the expense of accuracy, even when distillation is tailored to PC-Training through Focal Distillation [54]. ただし、この場合の互換性は、焦点蒸留によるpcトレーニングに合わせて蒸留を行っても、正確さを犠牲にしている [54]。 0.66
But since NFR can be reduced at equal error rate by trading errors [54], a first question arises: Is it possible to reduce NFR to the level しかし、NFRは取引エラー[54]によって等速で減少できるため、最初の疑問が生じる: NFRをレベルに下げることは可能か? 0.75
1 Low NFRLDILDI×𝑚......×𝑚Ensemble logitslogits 1 Low NFRLDILDI×m......×mEnsemble logitslogits 0.37
英語(論文から抽出)日本語訳スコア
of Focal Distillation without any impact on Error Rate? 誤差率に影響を与えない 焦点蒸留について? 0.73
Another approach to PC-Training consists of averaging a number of models in a deep ensemble [32]. PC-Trainingのもう一つのアプローチは、ディープアンサンブル[32]で複数のモデルの平均化である。 0.69
It is puzzling that this method would achieve state-of-the-art performance, since it does not explicitly optimize NFR, nor any surrogates, as part of the training process. トレーニングプロセスの一部としてNFRやサロゲートを明示的に最適化しないので、この手法が最先端のパフォーマンスを達成するのは困惑している。 0.60
More importantly, ensembling is not viable in real applications since it multiples the cost of inference by an integer factor. さらに重要なのは、整数係数による推論のコストを倍にするため、実際のアプリケーションではensemblingは実行できないことだ。 0.58
Therefore, a second key question arises: Is it possible to achieve the PC-Training performance of ensembles at the cost of running a single model? したがって、2つ目の重要な疑問は、アンサンブルのpcトレーニング性能を1つのモデルを実行するコストで達成できるのか、ということである。
訳抜け防止モード: 第二の鍵となる疑問が生まれます 単一モデルの実行コストを犠牲にしてアンサンブルのpc-トレーニング性能を達成するか?
0.72
Key ideas and intuition To address the first key question above, we propose a generalized distillation objective, termed Logit Difference Inhibition (LDI), which relaxes the requirement of exact logit matching to only limiting significant displacement in certain logit elements, thereby giving the model more flexibility to improve accuracy. 主なアイデアと直観 上述した第1のキーとなる問題に対処するため, あるロジット要素の有意な変位を制限するため, 正確なロジットマッチングの要求を緩和し, モデルの柔軟性を高め, 精度を向上させることを目的とした, 一般蒸留目標であるロジット差分抑制(LDI)を提案する。 0.67
To address the second question, we consider ensembles having the same architecture and trained on the same dataset. 2つ目の問題に対処するために、同じアーキテクチャを持ち、同じデータセットでトレーニングされたアンサンブルを考える。 0.55
Instead of applying LDI as model distillation, we enforce LDI between a single model and the ensemble. モデル蒸留としてLDIを適用する代わりに、1つのモデルとアンサンブルの間にLDIを強制する。 0.69
The result is a single model that achieves similar NFR reduction as the ensemble without sacrificing accuracy. その結果、精度を犠牲にすることなくアンサンブルと同様のnfr低減を実現する単一モデルが得られる。 0.68
These choices are motivated by the observation that negative flips, while not necessarily close to the decision boundary, frequently exhibit large variation in their relative distance across the ensemble. これらの選択は、負のフリップが必ずしも決定境界に近づくわけではないが、アンサンブルを横切る相対距離に大きな変化を示すという観察によって動機づけられる。 0.72
Thus, we use such deviations, which are reduced by ensembling, as a proxy of the likelihood of negative flip. したがって、このような偏差はアンサンブルによって減少し、負のフリップの可能性の代用として用いられる。 0.63
However, we note that there are still negative flips that exhibit small deviations in their logits, so there is no shortage of exploration left to do. しかし、ロジットに小さな偏差を示す負のフリップがまだ残っているので、まだ探索する余地は残っていないことに留意する。 0.63
In practice, we train a single model by penalizing the difference of sample logits from the mean of a deep ensemble. 実際に,深層アンサンブルの平均値とサンプルロジットの差をペナル化することにより,単一モデルを訓練する。 0.70
While in theory the elements of the ensemble can be arbitrary, we independently train replicas of a single model with different random seeds. 理論的には、アンサンブルの要素は任意であるが、異なるランダムな種を持つ単一のモデルのレプリカを独立に訓練する。 0.68
The result is what we call Ensemble Logit Difference Inhibition (ELODI). その結果、私たちがEnsemble Logit difference Inhibition (ELODI)と呼ぶものになりました。 0.64
Contributions ELODI improves the state-of-the-art in reducing perceived regression in model updates in three ways: (1) Generality, by not targeting distillation to a specific legacy model, yet reducing NFR; (2) Absence of collateral damage, by retaining the accuracy of a new model, or even improving it, while ensuring reduction of NFR; (3) Efficiency, as ELODI does not require evaluating ensembles of models at inference time. コントリビューション ELODI は,(1) 特定のレガシモデルに蒸留を目標とせず,NFR を低減し,(2) 新たなモデルの精度を維持しつつ,あるいは NFR の精度を保ちながら,さらにはそれを改善することで,一般性が向上し,(3) ELODI は推論時にモデルのアンサンブルを評価する必要がないため,モデルのリグレッションを低減させる。 0.77
Note that ELODI is able to deal with existing models trained without treatment, as shown in Sec. 4.2. ELODIは、Sec.2に示すように、治療なしでトレーニングされた既存のモデルを扱うことができる。 0.66
These improvements are made possible by two main contributions: (1) a novel distillation loss, named logit difference inhibition (LDI), that reduces NFR without decreasing accuracy when the teacher (reference) has smaller capacity than the student (new), as customary in model up- これらの改善は,(1)モデルアップの慣例として,教師(参照)が生徒(新規)よりも少ない場合の精度を低下させることなくNFRを減少させる新しい蒸留損失,LDI(logit difference inhibition)の2つの主な貢献によって実現される。 0.82
dates; (2) ELODI, that integrates model ensemble and LDI by first training deep networks using LDI loss with respect to an ensemble and then deploying the resulting single model at inference time. date; (2) ELODIはモデルアンサンブルとLDIを統合し、まず、LDI損失を使って深層ネットワークをトレーニングし、その結果の単一モデルを推論時にデプロイする。 0.72
This results in a significant reduction of NFR (29% relative reduction on ImageNet for ResNet-18 → ResNet-50) over previous methods. これにより、以前の手法に比べてNFR(ImageNet for ResNet-18 → ResNet-50)が大幅に減少する。 0.74
As a side benefit, ELODI increases top-1 accuracy in several cases, and is comparable in others. 副作用として、ELODIはいくつかのケースでトップ1の精度を高め、他のケースと同等である。 0.53
2. Related Work Cross-model compatibility is becoming increasingly important as real world systems incorporate trained components that, if replaced, can wreak havoc with postprocessing pipelines. 2.関連業務 現実世界のシステムがトレーニング済みのコンポーネントを組み込むことで、後処理パイプラインを混乱させる可能性があるため、クロスモデル互換性がますます重要になっている。 0.67
Toneva et al empirically study prediction flip on training samples between epochs, termed “forgetting events” in [48], while Yan et al [54] address perceived regression using held-out sets between different models. Tonevaらは、[48]において“forgetting events”と呼ばれるエポック間のトレーニングサンプルの予測フリップを実証的に研究し、Yanら[54]は異なるモデル間の保留集合を用いて知覚的回帰に対処した。 0.72
Both are particular instance of cross-model compatibility [4, 42, 44]. どちらもクロスモデル互換性の特別な例です [4, 42, 44]。 0.75
Focal Distillation [54] minimizes the distance between the old and new predictions, with increased weights on samples correctly classified by the old model. 焦点蒸留 [54] は古いモデルと新しい予測との間の距離を最小化し、古いモデルによって正しく分類された試料の重量を増加させる。 0.71
Tr¨auble et al [49] use a probabilistic approach to determine whether the prediction should update when a new model comes. tr sauble et al [49] 新しいモデルが来たとき、予測が更新されるかどうかを決定するために確率的アプローチを用いる。 0.70
While it improves cumulative NFR, it requires multiple models to be available at inference, which is prohibitive in practice. 累積的なNFRを改善するが、実際には禁止されている推論時に複数のモデルを使用する必要がある。 0.57
Ensemble learning methods such as bagging [6], boosting [8,16,21], and random forests [7,30] are widely adopted in machine learning. 機械学習では,バッキング[6],ブースティング[8,16,21],ランダムフォレスト[7,30]などのアンサンブル学習手法が広く採用されている。 0.75
The understanding for these methods is sometimes explained as enlarging the margins [5]. これらの方法の理解は時として[5]のマージンの拡大として説明される。 0.59
Recently, the “multi-view” hypothesis [1] suggests that each independent model in an ensemble of deep networks learns a subset of feature views and memorizes data not separable using this subset. 近年、"マルチビュー"仮説[1]は、ディープネットワークのアンサンブル内の各独立モデルが特徴ビューのサブセットを学習し、このサブセットを使用して分離できないデータを記憶することを示唆している。 0.67
In practice, one can always boost the performance of a classifier by averaging multiple models that are trained separately under a certain level of variation in training including model type, training data, initialization, etc. 実際には、モデルタイプ、トレーニングデータ、初期化など、トレーニングの一定のレベルで別々に訓練される複数のモデル平均化によって、常に分類器の性能を向上させることができる。 0.70
In this paper, we apply ensemble learning as a teacher’s model to guide the student model in reducing the negative flips during model updates. 本稿では,教師のモデルとしてアンサンブル学習を適用し,モデル更新時の負のフリップを減らすために学生モデルを指導する。 0.91
In particular, we present an alternate explanation from the perspective of dispersion of representations in the logit space. 特に、ロジット空間における表現の分散の観点からの別の説明を示す。 0.62
ELODI can be thought of as variance reduction regularization in a Bayesian neural network ensemble, which is eventually replaced by its mean at inference time. elodiはベイズ型ニューラルネットワークアンサンブルにおける分散還元正規化と見なすことができ、最終的に推論時間の平均に置き換えられる。 0.68
The literature on variance reduction is too vast to survey here, but relevant references include [15, 25]. 分散低減に関する文献はここでは調査するには大きすぎるが、関連する文献には[15, 25]が含まれる。 0.68
Some other ensemble learning techniques are summarized as follows: Deep ensemble [32] improves accuracy and allow estimating sample uncertainty; Snapshot Ensemble [26] and Fast Geometric Ensemble [19] train component models simultaneously, and Yan et al [54] show that ensembles help reduce regression. 深層アンサンブル [32] は精度を高めサンプルの不確かさを推定し、スナップショットアンサンブル [26] と高速幾何アンサンブル [19] のトレーニングコンポーネントモデルを同時に実施し、yan et al [54] はアンサンブルが回帰を減らすのに役立つことを示した。
訳抜け防止モード: 他のアンサンブル学習技法を以下にまとめる。 深層アンサンブル[32]の精度向上と試料の不確かさの推定 Snapshot Ensemble [26 ] と Fast Geometric Ensemble [19 ] は同時にコンポーネントモデルをトレーニングする。 Yan et al [54 ] はアンサンブルが回帰を減少させることを示す。
0.79
Ensembles are impracti- アンサンブルはインラクティである 0.23
2 2 0.42
英語(論文から抽出)日本語訳スコア
cal in most real applications due to the multiplier they impose on inference cost. 推論コストの乗算により 実際のアプリケーションでcalが使われます 0.59
This has prompted research on “implicit ensembles” such as Dropout [45] and its variants [18], DropPath [33] and Stochastic Depth [28]. これはDropout [45]とその変種[18]、DropPath [33]、Stochastic Depth [28]のような“単純なアンサンブル”の研究を促している。 0.67
Wen et al propose BatchEnsemble [52] to generate ensemble weights, Havasi et al use a MIMO [22] design to train multiple subnetworks concurrently. Wenらはアンサンブルウェイトを生成するためにBatchEnsemble [52]を提案し、HabasiらはMIMO [22]設計を使用して複数のサブネットワークを同時にトレーニングする。 0.66
These methods focus on accuracy instead of NFR. これらの手法はnfrではなく精度を重視している。 0.47
Knowledge distillation (KD) [24] was proposed to transfer “dark” knowledge from a larger “teacher” network to a smaller “student” by minimizing the distance between the distribution of predictions. 知識蒸留 (kd) [24] は, 予測分布間の距離を最小化することにより, より大きな「教師」ネットワークからより小さな「学生」ネットワークへ「ダーク」な知識を伝達する。 0.83
In self distillation [57], teacher and student are the same. 自己蒸留[57]では、教師と学生は同じです。 0.76
Focal Distillation [54] is a special case of KD with a sample-specific filtering function, developed for model updates where the legacy “teacher” model is actually weaker than the student (new) model, as in Reversed KD [56], where it is used as regularization. フーカル蒸留[54]は、サンプル特異的フィルタリング機能を備えたKDの特殊なケースであり、従来の「教師」モデルは、正則化として使用されるReversed KD[56]のように、学生(新)モデルよりも実際に弱いモデル更新のために開発された。 0.74
Ensemble distillation uses multiple teachers to improve accuracy in vision and other applications [3, 17, 34, 36, 40]. アンサンブル蒸留では、複数の教師を用いて視覚やその他の応用の精度を向上している[3, 17, 34, 36, 40]。
訳抜け防止モード: 複数の教師によるアンサンブル蒸留 視覚や他の用途[3,17,34,36,40]の精度を向上させる。
0.79
Our method is related to ensemble distillation while having two distinctive differences: (1) Our method uses a different term for the loss to achieve reduction of NFR; (2) members of an ensemble in our methods have the same architecture and are trained on the same dataset with different initialization seeds, opposite to the diverse ensembles used in traditional ensemble distillation. 本手法は, 2つの異なる相違点を有するアンサンブル蒸留法に関連している: 1) 損失の異なる用語を用いてnfrの低減を図る; (2) 従来のアンサンブル蒸留法で使用される多種多様なアンサンブルとは対照的に, 同一のアーキテクチャを持ち, 異なる初期化種を持つデータセット上で訓練される。 0.73
3. Representation Landscape of PC-Training 3.pcトレーニングの表現環境 0.73
To answer the two key questions in Sec. 1, we explore (1) how negative flips occur, and (2) why ensembles yield fewer negative flips [54]. Sec. 1の2つの重要な質問に答えるために、(1)負のフリップの発生方法、(2)なぜアンサンブルが負のフリップを減少させるのかを検討する [54]。 0.66
To do so, we analyze the so-called logit space, where the representations computed by a deep neural network before the SoftMax operation live. そこで本研究では,ソフトマックス動作前のディープニューラルネットワークによって計算される表現を,いわゆるlogit空間で解析する。 0.79
For a certain data sample, the logits produced by different models, trained on the same dataset, live in the same vector space which is defined by the class set of the training samples. あるデータサンプルの場合、同じデータセットでトレーニングされた異なるモデルによって生成されたlogitは、トレーニングサンプルのクラスセットで定義された同じベクトル空間に生きている。 0.86
This gives us insights on mechanisms underlying negative flips, which we first illustrate with a simple example. これによって、負のフリップの基礎となるメカニズムに関する洞察が得られます。 0.57
3.1. A Two-Dimensional Example 3.1. 二次元の例 0.52
To illustrate the behavior of models in logit space, we create a toy example by selecting two classes1 from ImageNet [12] and training ResNet-18 models for binary classification. ロジット空間におけるモデルの振る舞いを説明するために、ImageNet [12]から2つのクラス1を選択し、バイナリ分類のためのResNet-18モデルをトレーニングすることで、おもちゃの例を作成します。
訳抜け防止モード: ロジット空間におけるモデルの挙動を説明する。 おもちゃの例を作り ImageNet [12 ]から2つのクラス1を選択し、バイナリ分類のためのResNet-18モデルをトレーニングする。
0.72
The models differ by their initialization, determined by distinct random seeds; we then collect output logits for each test datum and model in the ensemble. モデルは初期化によって異なり、異なるランダムな種によって決定され、各テストダタムとモデルの出力ロジットをアンサンブルで収集する。 0.73
In Figure 2a, we plot the two-dimensional logit vectors of multiple data points when updating from an individual model to another. 図2aでは、個々のモデルから別のモデルに更新する際に、複数のデータポイントの2次元ロジットベクトルをプロットする。 0.72
We can roughly categorize the negative flipped samples, highlighted with the purple arrows, into two types: (1) those close to the decision boundary in the 紫の矢印で強調された負の反転したサンプルを、(1)決定境界に近い2つのタイプに大まかに分類することができる。 0.75
1“Labrador retriever” (n02099712) and “French bulldog” (n02108915). 1「ラブラドール・レトリバー」(n02099712)、「フランスのブルドッグ」(n02108915)。 0.76
old model; (2) those far from the decision boundary in the old model but still flipped in the new one, due to significant displacement of the logit vector. old model; (2) 古いモデルでは決定境界から遠いが、ロジットベクトルのかなりの変位のため、まだ新しいモデルでは反転している。 0.76
Figure 2b shows the logit vectors of the same set of data points but in the update case of two ensemble models each having 3 members (3×). 図2bは、同じデータポイントの組のロジットベクトルを示すが、3つのメンバー(3×)を持つ2つのアンサンブルモデルの更新の場合である。 0.76
Compared to Figure 2a, we can observe a clear reduction in the magnitude of displacement during the update. 図2aと比較すると,更新時の変位の大きさの明確な減少が観察できる。 0.81
To validate that this observation is not incidental, we construct many cases of model updates and measure the distribution of the logit vector displacement on a certain data sample. この観察が偶発的ではないことを検証するために,モデル更新の多くのケースを構築し,あるデータサンプル上のロジットベクトル変位の分布を測定する。 0.85
As shown in Figure 2d, in updates between ensembles, the logit vectors are less likely to exhibit significant displacement2. 図2dに示すように、アンサンブル間の更新では、ロジットベクトルは大きな変位を示す可能性が低い。 0.65
This suggests that the ensemble may be reducing the negative flip rate through the removal of significant displacement of the logit vectors. このことは、アンサンブルがロジットベクトルの有意な変位を除去することで負のフリップ率を減少させることを示唆している。 0.61
3.2. Ensembles in PC-Training 3.2. pcトレーニングにおけるアンサンブル 0.41
Logit spaces with more than 2 classe are not easily visualized. 2クラス以上のロジット空間は簡単には可視化できない。 0.73
Instead, we formally analyze the representation landscape in higher dimensions as follows: Given an input image x, we have n models with their output logit vectors {φ(x) 入力画像 x が与えられたとき、出力ロジットベクトル {φ(x) を持つ n 個のモデルが存在する。
訳抜け防止モード: 代わりに、より高次元の表現景観を次のように正式に分析する。 入力画像 x が与えられると、出力ロジットベクトル { φ(x ) を持つ n 個のモデルが存在する。
0.73
(i)}n i=1. For a single model pair φ (i)n i=1。 単一のモデルペア φ に対して 0.85
(i) and φ (j), we define the logit displacement due to training randomness to be the difference between embeddings, i.e. φ (i)及び φ (j) トレーニングランダム性に起因するロジット変位を埋め込みの違い、すなわち φ として定義する。
訳抜け防止モード: (i)及び φ (j) ランダム性のトレーニングによるロジットの変位を,埋め込み,すなわちφの差として定義する。
0.77
(i)(x) − φ (i)(x) − φ 0.42
(j)(x). Once the difference reaches a threshold, the order of the top prediction changes, and a flip occurs. (j)(x)。 差がしきい値に達すると、トップ予測の順序が変化し、フリップが発生する。 0.54
Ensembles reduce negative flips by reducing the magnitude of the logit displacement. アンサンブルはロジットの変位を小さくすることで負のフリップを減らす。 0.69
Without loss of generality, we assume {φ(1)(x),··· , φ(n)(x)} to be n i.i.d. random variables drawn from a distribution approximated to second-order by an expectation µ and a co-variance matrix Σ. 一般性を失うことなく、 { φ(1)(x),···· , φ(n)(x)} を期待値 μ と共分散行列 σ によって二階に近似された分布から引き出される確率変数 n と仮定する。 0.77
Now we construct two ensembles, each sampling m single models without overlapping and averaging the logit vectors of these models. 現在、2つのアンサンブルを構築し、それぞれが重なり合うことなくm個のモデルをサンプリングし、これらのモデルのロジットベクトルを平均化する。
訳抜け防止モード: 2つのアンサンブルを作り それぞれm個のモデルをサンプリングし これらのモデルのlogitベクトルの重複と平均化。
0.72
Let E1 and E2 denote the set of models of each ensemble, and we have (cid:107)E1(cid:107) = (cid:107)E2(cid:107) = m and E1 ∩ E2 = ∅. e1 と e2 を各アンサンブルのモデルの集合とし、 (cid:107)e1(cid:107) = (cid:107)e2(cid:107) = m と e1 を e2 = s とする。 0.73
For each ensemble we get the ensemble logit vector φ(ens,1)(x) and φ(ens,2)(x). 各アンサンブルに対して、アンサンブル対数ベクトル φ(ens,1)(x) と φ(ens,2)(x) を得る。 0.70
The multi-dimensional central limit theorem (CLT) [14, 41] states that this average converges in distribution to a multivariate normal distribution with the increase of m, i.e. 多次元中央極限定理 (multi-dimensional central limit theorem, clt) [14, 41] は、この平均が分布を m の増加を伴う多変量正規分布に収束することを示す。 0.82
φ(ens)(x) = φ(ens)(x) = 0.43
1 m φ(i)(x) D∼ N (µ, 1m φ(i)(x) d は n (μ,μ) である。 0.53
1 m Σ). (1) 1m Σ). (1) 0.42
m(cid:88) i=1 m(cid:88) i=1 である。 0.36
Therefore, the logit displacement between two ensembles both with m non-overlapping members is φ(ens,1)(x) − φ(ens,2)(x) = したがって、2つのアンサンブルと m 個の非重複成分の間の対数変位は φ(ens,1)(x) − φ(ens,2)(x) = 0.74
(cid:88) φ(j)(x) (cid:88) φ(j)(x) 0.41
φ(i)(x) − 1 m φ(i)(x) − 1 m 0.43
j∈E2 (cid:33) jje2 (cid:33) 0.30
(2) D∼ N (0, (2) D は N (0。 0.59
2 m Σ), (3) 2m Σ), (3) 0.42
(cid:88) (cid:88) (cid:88)(cid:88) 0.37
i∈E1 j∈E2 1 m I・E1 jje2 1m 0.33
(cid:32) 1 m (cid:32) 1m 0.39
(cid:33) φ(i) − µ (cid:33) φ(i) − μ 0.41
− φ(j) − µ − φ(j) − μ 0.43
(cid:32) (cid:88) (cid:32) (cid:88) 0.39
i∈E1 1 m = 2The data sample is randomly selected here. I・E1 1m = 2 データサンプルをランダムに選択する。 0.48
We present the same visu- 同じ visu を提示します。 0.55
alization on more randomly selected data points in the appendix. 付録内のよりランダムに選択されたデータポイントのアリゼーション。 0.65
3 3 0.42
英語(論文から抽出)日本語訳スコア
(a) Two single models: Test (a)2つの単一モデル:テスト 0.91
samples flip even if not close to the boundary (long arrows). サンプルは境界(長い矢印)に近づかなくても反転する。 0.70
(b) Two ensembles of 3 models each (3×): Fewer samples that are far from the boundary flip (b)各3モデル(3×)の2つのアンサンブル(境界フリップから遠くないサンプル) 0.76
(c) Logits of ensembles and their (c)アンサンブルのロジット及びそれらの 0.71
members: Individual models’ logits (lighter circles) center メンバー:個々のモデルのロジット(軽い円)センター 0.77
Figure 2. Visualization of a 2-class example. 図2。 2級の例の可視化。 0.72
(a-c): Two-class logits of two single models and/or ensembles. (a-c):2つのシングルモデルと/またはアンサンブルの2クラスロジット。 0.60
L and • refer to the ground-truth classes, while red and green data points refer to old and new model’s logits. l と • は基底クラスを参照し、赤と緑のデータポイントは古いモデルと新しいモデルのロジットを参照する。 0.79
Magenta arrow, blue arrow, and gray arrow link negative flip, positive flip, and consistent (either both correct or both wrong) prediction pairs. マゼンタ・アロー、ブルー・アロー、グレイ・アロー・リンク 負のフリップ、正のフリップ、一貫した(正しいか間違ったかのどちらか)予測ペア。
訳抜け防止モード: マゼンタ矢、青い矢、灰色の矢、負のフリップ。 正のフリップ、一貫性のある(正しいか間違っているかのどちらか)予測ペア。
0.60
All dots with black borders are depicting the same image. 黒い縁の点はすべて同じ像を描いている。 0.72
(d): Estimated probability mass function (PMF) of logit displacement between two single models or ensembles. (d):2つの単一モデルまたはアンサンブル間のロジット変位の推定確率質量関数(pmf)。 0.85
The x, y-axes denote the two classes’ logit displacement. x, y軸は2つのクラスのロジット変位を表す。 0.69
The heatmap value denotes the estimated probability density. ヒートマップ値は推定確率密度を表す。 0.77
The ensemble’s co-variance is significantly smaller than the single model. アンサンブルの共分散は単一モデルよりもかなり小さい。 0.59
The figure is best viewed in color. 図は色が一番よく見えます。 0.76
(shorter arrows). around the mode. (矢が短い)。 モードの周り。 0.71
(d) PMF of logit displacement. (d)ロジット変位のpmf。 0.28
This implies that the logit displacement between two ensembles reduces with more members. これは、2つのアンサンブル間のロジット変位がより多くのメンバーで減少することを意味する。 0.48
This can also be observed in the 2D example from Figure 2d. これは図2dの2D例でも見ることができる。 0.78
Logit displacement between ensembles with different functions. 異なる機能を持つアンサンブル間のロジット変位。 0.66
When two ensembles have different architectures or are trained on different datasets, the function that transforms the input to the logit vector is more prone to change. 2つのアンサンブルが異なるアーキテクチャを持つか、異なるデータセットでトレーニングされている場合、入力をロジットベクトルに変換する関数は変更しやすい。 0.74
We refer to this case as updates between heterogeneous ensembles. このケースを異種アンサンブル間の更新と呼ぶ。 0.45
This results in a different distribution from which the logit vectors are sampled. これにより、ロジットベクトルがサンプリングされる別の分布が得られる。 0.72
In this case, it is likely that µ(ens,1) (cid:54)= µ(ens,2). この場合、μ(ens,1) (cid:54)= μ(ens,2) となる。 0.82
Then the logit displacement would follow a normal distribution with a nonzero mean: すると、ロジットの変位は非ゼロ平均の正規分布に従う。 0.65
(cid:18) (cid:19) (cid:18) (cid:19) 0.39
φ(ens,1)(x) − φ(ens,2)(x) D∼ N φ(ens,1)(x) − φ(ens,2)(x) d\ n である。 0.75
µ1 − µ2, Σ1 + Σ2 µ1 − µ2, Σ1 + Σ2 0.41
m . (4) This results in an extrinsic logit displacement which does not go away when the ensembles get larger. M . (4) これにより、アンサンブルが大きくなると消滅しない外在性ロジット変位が生じる。 0.42
Such difference explains the observation in [54] that: このような違いは[54]での観察を説明する。 0.72
1) two very large ensembles with the same architecture can have almost no flips3; 1) 同じアーキテクチャを持つ2つの非常に大きなアンサンブルにはほとんどフリップ3がない。 0.62
2) The NFR between two ensembles with different architectures stagnates at a nonzero value4. 2) 異なるアーキテクチャを持つ2つのアンサンブル間のNFRは非ゼロ値4で停滞する。 0.69
3.3. Validation in High Dimensions 3.3. 高次元の検証 0.49
We verify our hypothesis on the representation landscape in general cases as follows. 我々は,一般的な場合において,表現の景観に関する仮説を次のように検証する。 0.55
We train a standard ResNet-18 on full ImageNet dataset with 256 random seeds. 256個のランダムシードを持つフルイメージネットデータセット上で、標準のResNet-18をトレーニングする。 0.61
To visualize the logit displacement between two homogeneous ensembles with m models, we split the models into two halves. mモデルを用いた2つの同種アンサンブル間のロジット変位を可視化するため,モデルを2つのハーフに分割した。 0.65
Then for a fixed input image, we randomly draw m models without replacement and compute the averaged logits of this drawn ensemble. そして、固定入力画像に対して、この描画されたアンサンブルの平均ロジットを置き換えずにランダムにmモデルを描画し、計算する。 0.68
The process is repeated on the プロセスは繰り返し行われます 0.78
3NFR between two 64/128× ResNet-18 ensembles is 0.91/0.65%. 64/128× ResNet-18アンサンブル間の3NFRは0.91/0.65%である。 0.41
4NFR between a 32/64× ResNet-18 and -50 ensemble is 1.48/1.42%. 4NFRは32/64×ResNet-18と-50アンサンブル間の1.48/1.42%である。 0.47
same image with m = 1, 2, 4,··· , 32. m = 1, 2, 4,···· , 32 と同じ像である。 0.78
We present in Figure 3a the (cid:96)2 norm histogram of logit displacement between two random ensembles with different m. 図3aでは、mが異なる2つのランダムアンサンブル間のロジット変位の(cid:96)2の標準ヒストグラムを示す。 0.69
As the ensemble size grows, the distribution of logit displacement condenses to lower values. アンサンブルサイズが大きくなるにつれて、ロジット変位の分布は低い値に縮まる。 0.63
We examine our hypothesis in Section 3.2 through probability mass function (PMF) of logit difference. 我々は,ロジット差の確率質量関数(PMF)を用いて,セクション3.2の仮説を検証した。 0.68
First we use all available single models to estimate a mean µ and co-variance matrix Σ for the logit vectors’ distribution Φ. まず、すべての利用可能な単一モデルを用いて平均 μ と共分散行列 Σ をロジットベクトルの分布 Σ に対して推定する。 0.76
If we assume Φ follows a Normal distribution, i.e. Φ ∼ N (µ, Σ), so will the logit displacement between any two models, i.e. ∆Φ ∼ N (0, 2Σ). ある正規分布 (Normal distribution) 、すなわち (μ, Σ) を満たすと仮定すると、任意の二つのモデル、すなわち (0, 2Σ) 間のロジット変位が成立する。 0.70
Then the norm of logit displacement will follow a generalized (central) χ2 distribution [37], i.e. (cid:107)∆Φ(cid:107)2 ∼ ˜χ2(w, k, λ, m, s), where the parameters can be obtained according to [11]. すると、ロジットの変位のノルムは一般化された(中央)分布 [37] に従い、(cid:107)\ φ(cid:107)2 は(w, k, λ, m, s)、パラメータは [11] に従って得られる。 0.65
Since the probability density function of a generalized chisquared variable does not have a simple closed-form expression, we use KDE [38] to estimate it. 一般化された2乗変数の確率密度関数は単純な閉形式表現を持たないので、KDE[38] を用いてそれを推定する。 0.74
The simulated PMF is plotted in solid lines in Figure 3a. シミュレーションされたPMFは図3aの固体線でプロットされる。 0.70
We see that the PMF curve fits the histogram of single models well, implying that logits of these models could indeed follow a Normal distribution. pmf曲線は単一モデルのヒストグラムによく適合しており、これらのモデルのロジットが正規分布に従うことを示唆している。 0.79
We conduct the same experiments above on many more images and the conclusion holds well, suggesting this property is not incidental5. 以上と同じ実験を多くの画像で行い、結論は良好であり、この性質は偶発的5ではないことを示唆する。 0.70
If we move to ensembles of m models each, the logit displacement follows another normal distribution whose co-variance matrix is scaled by a factor m モデルのアンサンブルに移動すると、ロジットの変位は、共分散行列を因子でスケールする別の正規分布に従う。 0.74
of m, i.e. ∆Φ(ens) ∼ N(cid:0)0, 2 m について、すなわち、n(cid:0)0, 2 である。 0.66
m Σ(cid:1). m Σ(cid:1。 0.87
We demonstrate that the rest of histograms are indeed consistent with the estimated PMF of (cid:107)∆Φ(ens)(cid:107)2 (dashed lines in Figure 3a), corroborating our hypothesis in Section 3.2. 私たちが示すのは 残りのヒストグラムは (cid:107)-φ(ens)(cid:107)2 (dashed lines in figure 3a) の推定 pmf と一致しており、第3.2節で我々の仮説を裏付けている。 0.68
Finally, we examine the case of heterogeneous ensem- 最後に異種音の症例について検討する。 0.39
5Analysis on more data points can be found in the appendix. 5 データポイントのさらなる分析は、付録に記載されている。 0.61
4 10121012class 0class 1old logitnew logitold logitnew logit10121012class 0class 1old logitnew logitold logitnew logit10121012class 0old ens. logitnew ens. logitold indiv. 4 10121012class 0class 1old logitnew logitold logitnew logit101212class 0class 1old logitnew logitold logitnew logit1012class 0old ens. logitnew ens. logitold indiv 0.42
logitnew indiv. logitnew (複数形 logitnews) 0.35
logitold ens. logitnew ens. logitold indiv. logitold ens. logitnew ens. logitold indiv. 0.42
logitnew indiv. logitnew (複数形 logitnews) 0.35
logit404404single models404404ensemble models0.000.050.100. 150.200.250.300.350. 40 logit404404single model404404ensemble models0.000.050.100. 150.200.250.300.350. 40 0.09
英語(論文から抽出)日本語訳スコア
(a) Two random ensembles are the same type (homogeneous). (a)2つのランダムアンサンブルは同じ型(均質)である。 0.77
∆µ = µ1 − µ2 = 0, Σ(cid:48) = 2Σ1 = 2Σ2. ∆µ = µ1 − µ2 = 0, Σ(cid:48) = 2Σ1 = 2Σ2. 0.41
(b) Two random ensembles are different types (heterogeneous). (b)二つのランダムアンサンブルは異なる種類(ヘテロゲネス)である。 0.74
∆µ = µ1 − µ2 (cid:54)= 0, Σ(cid:48) = Σ1 + Σ2. ∆µ = µ1 − µ2 (cid:54)= 0, Σ(cid:48) = Σ1 + Σ2. 0.43
(cid:96)2 norm histogram of logit displacement beFigure 3. (cid:96)2 norm histogram of logit shift beFigure 3。 0.84
tween two random ensembles. 2つのランダムアンサンブル。 0.62
The bin size is 0.5. ビンサイズは0.5。 0.76
We also plot the simulated probability mass function (PMF): the solid line for the norm of a simulated normal distribution N (∆µ, (Σ1 + Σ2)) whose parameters are estimated from all available single models; the dashed lines for extrapolated distri- また、シミュレーションされた確率質量関数 (pmf) をプロットし、パラメータが利用可能な全ての単一モデルから推定されるシミュレーション正規分布 n (σ1 + σ2) のノルムに対するソリッドライン、外挿ディトリのダッシュラインをプロットする。 0.87
m (Σ1 + Σ2)(cid:1). m (Σ1 + Σ2) (cid:1)。 0.78
Consistency between the ensem- bution N(cid:0)∆µ, 1 センス間の一貫性- bution N(cid:0) =μ, 1 0.48
bles’ histograms and PMFs supports our hypotheses in Section 3.2. blesのヒストグラムとpmfは、第3.2節の仮説を支持している。 0.47
bles by forming ensembles with ResNet-50 models and comparing them to the ensembles obtained above. bleはresnet-50モデルでアンサンブルを形成し、上述のアンサンブルと比較する。 0.51
In this case we have Φ1 ∼ N (µ1, Σ1) for the ResNet-18 ensembles and Φ2 ∼ N (µ2, Σ2) for the ResNet-50 ensembles. この場合、ResNet-18 のアンサンブルに対して t1 > N (μ1, Σ1) と ResNet-50 のアンサンブルに対して t2 > N (μ2, Σ2) が成立する。 0.56
Therefore the logit displacement follows ∆Φ ∼ N (µ1 − µ2, Σ1 + Σ2) and its norm should follow a generalized non-central χ2 distribution. したがって、ロジットの変位は > N (μ1 − μ2, Σ1 + Σ2) に従っており、そのノルムは一般化された非中央分布に従わなければならない。 0.57
From Figure 3b we can see that the estimated distribution of the logit displacement norm fits the empirical distribution well. 図3bから、ロジット変位ノルムの推定分布が経験的分布によく適合していることが分かる。 0.81
It still condenses as the enembles get large. エンブルが大きくなるにつれて凝縮する。 0.54
But the mean converges to (cid:107)µ1 − µ2(cid:107) (the dotted vertical line in Figure 3b) instead of decreasing to 0 as between the ResNet-18 ensembles. しかし平均は (cid:107)μ1 − μ2(cid:107) に収束する(図3bの点線は ResNet-18 のアンサンブルのように 0 に減少する)。 0.74
4. Logit Difference Inhibition Based on the previous analysis, we derive a method to reduce NFR in classification model updates. 4.ログの差分抑制 従来の分析結果に基づいて,分類モデル更新におけるNFR削減手法を提案する。 0.58
To prevent a single model’s output logits from having high variance from a reference model, we propose logit difference inhibition (LDI), rather than hard logit matching [54], which causes undesired impact to model accuracy. 単一モデルの出力ロジットが参照モデルから高いばらつきを持つのを防止するため、ハードロジットマッチング [54] ではなく、ロジット差分抑制 (ldi) を提案する。
訳抜け防止モード: 単一のモデルの出力ロジットが参照モデルとのばらつきが高いことを防止する。 ハードロジットマッチング[54]ではなく,ロジット差分抑制(LDI)を提案する。 モデル精度に 好ましくない影響を与えます
0.75
Next we extend LDI to ELODI to utilize ensemble’s reduction of logit displacement and alleviate the need of precedent models in training. 次に,ldiをelodiに拡張し,ロジット変位の削減とトレーニングにおける前例モデルの必要性を軽減する。
訳抜け防止モード: 次に LDI を ELODI に拡張します アンサンブルのロジット変位低減を活用し、トレーニングにおける前例モデルの必要性を軽減する。
0.79
4.1. Logit Difference Inhibition for Single Models Let φ(old)(x) and φ(new)(x) denote the old and new model’s logit outputs before SoftMax for the input image x with label (cid:96) ∈ {1,··· , C}. 4.1. 単一モデルに対するロジット差の抑制 φ(old)(x) と φ(new)(x) は、入力画像 x に対して (cid:96) ∈ {1,···· , c} がsoftmax の前に出力される古いモデルと新しいモデルのロジットを表す。 0.59
Each logit vector has C dimensions, i.e. φ(·)(x) ∈ RC, and φ(·) k (x) denotes its k-th element. 各ロジットベクトルは C 次元、すなわち φ(·)(x) ∈ RC を持ち、φ(·) k (x) はその k 番目の元を表す。 0.84
A straightforward way to reduce NFR is to apply a knowledge distillation loss that forces φ(new)(x) to match φ(old)(x) [44, 54]. NFR を減少させる簡単な方法は、φ(new)(x) を φ(old)(x) [44, 54] と一致するように強制する知識蒸留損失を適用することである。 0.84
However, as shown in Section 3.2, when φ(old)(x) has a large displacement from its mode, forcing exact match can be detrimental to accuracy [24, 54]. しかし、セクション3.2で示されているように、φ(old)(x) がそのモードから大きくずれている場合、正確な一致を精度[24, 54]に低下させることができる。 0.73
Therefore we only inhibit significant difference between old and new logit vectors’ elements as follows: LLDI(x) = したがって、古いロジットベクトルの要素と新しいロジットベクトルの要素との有意な差を抑えるだけである: LLDI(x) = 0.72
(x) − φ(old) (x) − φ(old) 0.42
0,(cid:107)φ(new) 0,(cid:107)φ(new) 0.47
(x)(cid:107) − ξ (x)(cid:107) − である。 0.73
(cid:88) (cid:17)p (cid:88) (cid:17)p 0.41
, (5) (cid:16) , (5) (出典:16) 0.55
max k k k∈K マックス k k カーク 0.68
where ξ is truncating threshold such that difference below ξ is tolerated. ここで > 以下の差が許容されるようなしきい値が truncating threshold となる。 0.55
K is a data-dependent subset of classes where the difference will be inhibited. K は、差が抑制されるクラスのデータ依存サブセットである。 0.79
K can include either all classes ({1,··· , C}) or the classes with the top-K highest logit elements. K はすべてのクラス ({1,··· , C}) と、上位 K 個のロジット要素を持つクラスを含むことができる。 0.82
The introduction of the subset is based on our observation that flips are more prone to happen in high logit classes. サブセットの導入は、高ロジットクラスではフリップがより起こりやすいという私たちの観察に基づいています。 0.68
As shown in experiments, the top-K form of LDI leads to no loss in NFR reduction and compared to the full form. 実験で示されているように、LDIの上位K型は、NFRの減少とフルフォームと比較して損失を生じない。 0.59
It could instead help in reducing computation cost when number of classes are extremely large [2]. 代わりに、クラス数が極端に大きい場合に計算コストを削減するのに役立つだろう[2]。 0.76
p is set to be 2 in our experiments. p は実験で 2 に設定される。 0.73
When ξ = 0 and K = {1,··· , C}, LDI degrades to the logit matching distance function that is used in Focal Distillation [54]. k = {1,···· , c} のとき、ldi は焦点蒸留で使われるロジットマッチング距離関数に分解する [54]。
訳抜け防止モード: が 0 で K = { 1, · · · · であるとき、 C }, LDIはFocal Distillation [54 ]で使用されるロジットマッチング距離関数に分解する。
0.79
4.2. ELODI: Ensemble Logit Difference Inhibition 4.2. ELODI: ログ差分抑制のアンサンブル 0.52
Section 3.2 implies that model ensemble gives a good estimate of the logit for one architecture trained on the i.e. closer to its mode. セクション3.2は、モデルアンサンブルがそのモードに近いように訓練された1つのアーキテクチャのロジットを適切に見積もっていることを示している。 0.63
Therefore the ensame data, semble of many models appears to be a better reference than a single old model. したがって、多くのモデルの集合は、単一の古いモデルよりも良い参照であるように思われる。 0.82
For a model ensemble composed of m single models φ(ens,i), i ∈ {1,··· , m}, the ensem(x) for sample x at class k is φ(ens) ble logit φ(ens) (x) = i φ(ens,i) (x). m 個の単一モデル φ(ens,i), i ∈ {1,···· , m} からなるモデルアンサンブルに対して、クラス k における標本 x の ensem(x) は φ(ens) ble logit φ(ens) (x) = i φ(ens,i) (x) である。 0.85
Replacing the old model’s logits in 1 m Eq. 旧モデルのlogitsを1mのeqで置き換える。 0.73
(5) by the ensemble’s, we obtain the loss function for ensemble logit difference inhibition (ELODI) as LELODI(x) = (x) − φ(ens) (5) アンサンブルにより、LELODI(x) = (x) − φ(ens) としてアンサンブルロジット差分抑制(ELODI)の損失関数を得る。 0.71
0,(cid:107)φ(new) 0,(cid:107)φ(new) 0.47
(x)(cid:107) − ξ (x)(cid:107) − である。 0.73
(cid:88) (cid:80) (cid:88) (cid:80) 0.39
(cid:17)p (cid:16) (cid:17)p (出典:16) 0.55
max k k k マックス k k k 0.81
, k∈K k k (6) , カーク k k (6) 0.58
where φ(ens) is obtained by averaging the logits of m models independently trained on the same dataset and having the same architecture as φ(new). ここで φ(ens) は、同じデータセット上で独立にトレーニングされ、 φ(new) と同じアーキテクチャを持つ m モデルのロジット平均によって得られる。 0.82
In Section 5 we show that this approach reduces NFR more and eases system updates. 第5節では、このアプローチによりNFRが減少し、システム更新が容易になることを示す。
訳抜け防止モード: 第5節では このアプローチにより、nfrの削減とシステム更新の容易化が図られる。
0.60
The overall objective for training is a weighted sum of the standard Cross Entropy loss and the LDI or the ELODI loss トレーニングの全体的な目的は、標準クロスエントロピー損失とLDIまたはELODI損失の重み付け和である 0.77
L = (1 − α)LCE + αLELODI, L = (1 − α)LCE + αLELODI 0.42
(7) 5 1020502 norm of output logit displacement0.00.20. 40.6pmf of ||||,(0,0)pmf of ||||,(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.204060802 norm of output logit displacement0.00.20. 40.6pmf of ||||,(,0)pmf of ||||,(,1N(0))||||single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens. (7) 5 1020502 ||||,(0,0)pmf of ||||,(0,0)pmf of |||||,(0,1n0)single2x ens.4x ens.16x ens.32x ens.single2x ens.4x ens.8x ens.16x ens.32x ens.204060802 norm of output logit displacement0.00.20. 40.6pmf of |||||,(0,0)pmf of ||||||,(1n(0))||||||||single2x ens.4x ens.16x ens.16x ens.16x ens.16x ens.16x ens.16x ens.32x ens.32x ens.32x ens.204060802 ens.16x ens.16x ens.16x ens.16x ens.16x ens.16x ens.16x ens.16x ens.1660802 ens.16x ens.16x ens.16x ens.x ens.x ensx ensx enx ens.16x ensx ens.16x ensx ens.16x ens.16x ensx ens.x ens.x ensx ensx ens.16x ens.x ens.x ensx ensx ens.x enx ensx ensx ens.x ensx ens.1660808080808080 8080808080808080802 ensx ensx ensx ensx ensx ensx ensx ensx ens.x ensx の出力||||||||||||||||||||||||||||、(0,(0,(0,(0.0)0)0) のノル のノル のノルのノルのノルのノルのノル のノル のノル のノル のノルは、r のノルのノルのノルのノルのノルのノルのノルのノルのノルのノル)のノル、のノル、のノルのノル数量量量量量量量量量量量量量量量量量量量量量量量量量量量量量量量量量数数量数量数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数数 0.33
英語(論文から抽出)日本語訳スコア
where the loss weight α is set such that the magnitude of LCE and LELODI is similar. 損失重量 α は LCE と LELODI の等級が類似するように設定される。 0.70
In single-model LDI, α is set to 0.5. 単モデル LDI では、α は0.5 に設定される。 0.63
From Figure 3a, we can see that the expectation of logit difference norm decreases w.r.t. the ensemble size. 図3aから、ロジット差分ノルムの期待値がw.r.t.アンサンブルサイズを減少させることがわかる。 0.64
So when using LELODI with m = 8, we set α to 0.8. したがって、m = 8 で LELODI を使用するときは α を 0.8 に設定する。 0.73
The inference stage of ELODI does not involve the guiding ensembles. ELODIの推論段階は、導くアンサンブルを含まない。 0.56
Only the single model trained with ELODI is deployed to replaced the old model, which is also trained with ELODI. ELODIでトレーニングされた単一のモデルのみが、ELODIでトレーニングされた古いモデルを置き換えるためにデプロイされる。 0.82
This avoids the prohibitive inference cost of the ensembles while achieving similar level of NFR reduction to the ensembles [54] without sacrificing accuracy, as shown in Sec. 5.1. これにより、アンサンブルの禁止推論コストを回避しつつ、第5.1に示すように、精度を犠牲にすることなくアンサンブル [54] と同様のnfr低減を達成している。 0.47
When the number of updates increase, this forms a chain of models with low NFR between them. 更新数が増加すると、その間に低いNFRを持つモデルの連鎖を形成する。 0.72
The fact that ELODI does not need the old models as references, contrary to previous methods [4, 54], would significantly simplify the training and model update process. ELODIが参照として古いモデルを必要としないという事実は、以前のメソッド [4, 54] とは対照的に、トレーニングとモデルの更新プロセスを著しく単純化する。 0.75
Dealing with old models without ELODI is necessary when updating an existing system. 既存のシステムを更新するとき、elodiなしで古いモデルを扱う必要がある。 0.68
We consider the simple case of one old model not trained with ELODI. ELODIで訓練されていない古いモデルの単純な場合を考える。 0.81
In this case, we augment ELODI with an additional LDI loss w.r.t. to the old model, i.e. Ltotal = λLELODI(M♦ この場合、古いモデル、すなわちLtotal = λLELODI(M)に付加的なLDI損失w.r.tでELODIを増大させる。 0.84
new ) + (1 − λ)LLDI(M♦ new ) + (1 − λ)LLDI(M) 0.44
new;M(ens) new (複数形 news) 0.52
new;Mold). new (複数形 news) 0.58
(8) 5. Experiments i (8) 5.実験 私は 0.59
i i=1 私は i=1 である。 0.42
i i I(ˆy(new) 私は 私は I (複数形 Is) 0.53
(cid:80)N (cid:54)= (cid:96)i, ˆy(old) (cid:80)n (cid:54)=(cid:96)i,:y(old) 0.42
We validate the proposed approaches on two standard image classification datasets: ImageNet [12] and iNaturalist [50]. 提案手法は,ImageNet [12] と iNaturalist [50] の2つの標準画像分類データセットに対して検証する。 0.80
We measure models’ top-1 error rate (ER). モデルのトップ1エラー率(ER)を測定します。 0.76
For a new model in an update experiment, we measure its negative flip rate to the old model (NFR) [54], computed as = (cid:96)i), where I(·) NFR = 1 N is the indicator function, (cid:96)i is the label, and ˆy(new) (ˆy(old) ) is the new (old) model’s prediction. 更新実験における新しいモデルでは、その負のフリップ率を古いモデル(NFR) [54] と計算し、I(·) NFR = 1 N を指標関数とし、(cid:96)i をラベルとし、 y(new) ( y(old) ) を新しい(古い)モデルの予測とする。 0.73
All classification models are trained with SGD with momentum of 0.9 and base learning rate of 0.1, which is reduced by 1 10 every 30 epochs until 90 epochs. すべての分類モデルは sgd で 0.9 の運動量と 0.1 のベース学習率で訓練され、30 エポックごとに 90 エポックまで 110 減らされる。 0.80
The batchsize is 640 with 8 GPUs. バッチサイズは640、GPUは8。 0.75
Unless otherwise specified, all ELODI experiments are conducted with ensemble size m = 8. その他の指定がなければ、全てのELODI実験はアンサンブルサイズ m = 8 で実施される。 0.68
5.1. Main Results of ELODI The effect of Logit Difference Inhibition. 5.1. elodiの主な結果はlogit差分抑制の効果である。 0.48
In Table 1a, we summarize the results of Logit Difference Inhibition for model update of ResNet-18 → ResNet-50. 表1aでは、ResNet-18 → ResNet-50のモデル更新におけるLogit Different Inhibitionの結果を要約する。 0.72
The initial ResNet-18 model is trained with standard cross entropy loss (no treatment). 初期のResNet-18モデルは標準的なクロスエントロピー損失(治療なし)で訓練されている。 0.58
We observe that LDI reduces NFR under all choices of ξ, the truncating threshold. 我々は LDI が NFR を Truncating threshold の全ての選択で減少させるのを観察する。 0.75
With a relative large ξ, we can reduce NFR without harming the new model’s accuracy, which was not possible in the baseline methods. 相対的な大きければ、ベースライン法では不可能な新しいモデルの精度を損なうことなく、NFRを減らすことができる。
訳抜け防止モード: 相対的に大きい s で NFR を減らすことができる ベースラインメソッドでは不可能だった新しいモデルの精度を傷つける。
0.70
However, we observe a tradeoff between the new model’s ER and NFR when varying ξ. しかし,新モデルのERとNFRのトレードオフは,異なる場合,観測される。 0.68
Also, NFR stagnates at around 2.9%, indicating that it is hard to reduce NFR w.r.t. an old model without treatment. また、NFRは2.9%ほど停滞しており、NFRを治療なしで古いモデルに還元することは困難であることを示している。
訳抜け防止モード: また、NFRは2.9%程度で停滞する。 NFR w.r.t を治療なしで古いモデルに還元することは困難であることを示す。
0.65
old model (R18) No treatment 旧型(r18) 治療なし 0.74
BCT [42] KD [24, 54] FD-KL [54] FD-LM [54] BU-CR [49] LDI (ξ = 0.0) LDI (ξ = 0.2) LDI (ξ = 0.5) LDI (ξ = 1.0) BCT [42] KD [24, 54] FD-KL [54] FD-LM [54] BU-CR [49] LDI (t = 0.0) LDI (t = 0.2) LDI (t = 0.5) LDI (t = 1.0) 0.45
ER↓(%) NFR↓(%) 30.24 24.66 25.00 28.38 26.32 26.53 26.51 25.81 25.63 24.91 24.64 ER↓(%) NFR↓(%) 30.24 24.66 25.00 28.38 26.32 26.53 26.51 25.81 25.63 24.91 24.64 0.27
N/A 4.30 4.34 3.20 2.90 2.92 4.56 2.86 2.94 2.91 3.18 N/A 4.30 4.34 3.20 2.90 2.92 4.56 2.86 2.94 2.91 3.18 0.21
(a) ResNet-18 → ResNet-50 using LDI. (a) LDI を用いた ResNet-18 → ResNet-50。 0.68
Here ResNet-18 is arbitrary (without any positive-congruent treatment). ここで ResNet-18 は任意である(正の連続処理なしで)。 0.61
The NFR reduction is largely insensitive to the choice of ξ, while a small non-zero ξ, e g , 0.5 or 1.0, can lead to slightly lower ER. NFR の還元は、主に ^ の選択に反応しないが、小さな 0 でない ^ g , 0.5 または 1.0 は、わずかに低い ER をもたらす。 0.75
ER↓(%) Method R18♦ R50♦ 30.24 24.66 No treatment (single) Ensemble (8×) 26.34 22.44 Ensemble w/. ER~(%) 方法 r18/r50/30.2424.66 アンサンブル(8×)26.3422.44アンサンブルw/。 0.41
KDτ =100 32.09 23.67 32.19 23.97 Ensemble w/. kdτ = 100 32.09 23.67 32.19 23.97 アンサンブルw/。 0.38
FDτ =100 31.62 24.06 Ensemble w/. FDτ = 100 31.62 24.06 アンサンブル w/ 0.53
FDτ =1 31.34 23.15 ELODI (ξ = 0.0) ELODI (TopK = 2) 31.17 23.12 31.35 23.21 ELODI (TopK = 5) 30.95 23.10 ELODI (TopK = 10) FDτ = 1 31.34 23.15 ELODI (a = 0.0) ELODI (TopK = 2) 31.17 23.12 31.35 23.21 ELODI (TopK = 5) 30.95 23.10 ELODI (TopK = 10) 0.37
NFR↓(%) nfr(%) である。 0.51
4.30 1.95 2.23 2.16 2.43 2.18 2.27 2.21 2.11 4.30 1.95 2.23 2.16 2.43 2.18 2.27 2.21 2.11 0.21
(b) ResNet-18♦→ ResNet-50♦using ELODI. (b) ResNet-18 → ResNet-50 使用 ELODI。 0.62
Both ResNet-18 and ResNet-50 are trained from an 8× ensemble. ResNet-18とResNet-50はどちらも8×アンサンブルからトレーニングされている。 0.54
The baseline and ensemble paragon are included for comparison in the upper half. 上半分の比較にはベースラインとアンサンブルパラゴンが含まれる。 0.60
Table 1. The performance of different distillation methods on ImageNet. 表1。 ImageNetにおける異なる蒸留法の性能評価 0.73
(a): Comparison between loss functions in PC training without ensembles. (a):アンサンブルのないpcトレーニングにおける損失関数の比較。 0.80
LDI is capable of reducing NFR without increasing ER much. LDIはERを多く増やさずにNFRを低減できる。 0.70
(b): Comparison between loss functions in PC training with ensembles. (b)PCトレーニングにおける損失関数とアンサンブルの比較。 0.68
ELODI outperforms existing methods, e g KD and FD. ELODIは既存のメソッド、例えばKDやFDよりも優れています。 0.53
The ELODI-TopK variant achieves similar or even slightly better performance. ELODI-TopKの派生型は、類似または若干の性能が向上している。 0.53
Next we switch to ELODI, where ResNet-18 and -50 are trained by ensemble with m = 8. 次に ELODI に切り替えます。ここでは ResNet-18 と -50 を m = 8 のアンサンブルでトレーニングします。 0.65
The results are summarized in Table 1b. 結果は表1bにまとめられている。 0.73
First, we find that update with ELODI loss outperforms using Focal Distillation loss [54] (Ensemble w/. FD) or original Knowledge Distillation loss [24] (Ensemble w/. KD) in both ER and NFR. まず、ERとNFRの両方において、Focal Distillation loss [54] (Ensemble w/.FD) またはオリジナルのKD (Ensemble w/.KD) を用いて、ELODIの損失率の更新が優れていることを確認する。 0.72
Second, we observe that a smaller ξ achieves better final metrics compared to single-to-single LDI. 第二に、単一対単の LDI と比較して、より小さな s が最終的な測定値を改善することを観察する。 0.50
This supports our hypothesis that ensemble logits serve as a more reliable estimate than a single model. これは、アンサンブルロジットが単一のモデルよりも信頼できる推定として役立つという仮説を支持する。 0.61
Third, we find that using the top-K highestlogit class subset in ELODI with K ∈ {2, 5, 10} does not deteriorate the performance (±0.1%). 第3に、k ∈ {2, 5, 10} を持つ elodi の top-k highestlogit クラスサブセットを使用すると、パフォーマンスが低下しない(±0.1%)。 0.75
From an ER-NFR scatter plot in Figure 1, ELODI achieves a similar level of 図1のER-NFR散乱プロットからELODIは同様のレベルを達成する 0.85
6 6 0.43
英語(論文から抽出)日本語訳スコア
Method None FD [54] 方法 FD[54]なし 0.58
LDI Ens. (8×) 36.03 ELODI 43.56 LDI Ens. (8×) 36.03 ELODI 43.56 0.40
Increasing #classes #class の増加 0.81
NFR↓ Error Rate↓(%) R18(cid:72)(cid:35) R50(cid:35) 47.58 35.95 45.87 35.82 47.04 29.47 52.96 34.29 (a) Data-growth setting. NFR! エラーレート(%) R18(cid:72)(cid:35) R50(cid:35) 47.58 35.95 45.87 35.82 47.04 29.47 52.96 34.29 (a) データ成長設定。 0.46
5.38 3.44 2.04 1.68 1.91 5.38 3.44 2.04 1.68 1.91 0.22
- NFR↓ Increasing #samples/class Error Rate↓(%) R18(cid:72)(cid:35) R50(cid:35) 78.88 35.95 66.91 45.31 29.47 34.29 - NFR! R18(cid:72)(cid:35) R50(cid:35) 78.88 35.95 66.91 45.31 29.47 34.29 0.35
3.82 2.00 1.64 1.23 1.47 3.82 2.00 1.64 1.23 1.47 0.22
- Method No treatment FD [54] LDI Ens. (8×) ELODI - 方法 no treatment fd [54] ldi ens. (8×) elodi 0.38
Error Rate↓(%) NFR↓(%) R18→ R50 R18 40.69 r18→ r50 r18 40.69 エラーレート 〜(%) nfr 〜(%) r18→ r50 r18 40.69 0.35
- R50 35.95 40.03 34.43 29.47 36.25 40.37 34.29 (b) Full data. - R50 35.95 40.03 34.43 29.47 36.25 40.37 34.29 (b) 全データ。 0.49
4.76 3.95 3.50 2.10 2.46 4.76 3.95 3.50 2.10 2.46 0.22
Table 3. The performance of ELODI on iNaturalist [50]. 表3。 iNaturalist [50]におけるELODIの性能 0.56
ELODI is effective when fine-tuning on other datasets under both standard (full-data) and data-growth settings. ELODIは、標準(フルデータ)とデータグロース設定の両方で他のデータセットを微調整する場合に有効である。 0.56
M(cid:72)(cid:35)((c id:35)) means that M is trained and evaluated with half (full) data. M(cid:72)(cid:35)((c id:35))は、Mがトレーニングされ、半分のデータで評価されることを意味する。 0.72
Distill. type Offline Online 希釈。 種類 オフラインオンライン 0.47
Error Rate↓(%) R18♦ R50♦ 24.26 32.49 30.97 23.81 エラーレート(%)R18.R50.24.26 32.49 30.97 23.81 0.46
NFR↓(%) nfr(%) である。 0.51
R18♦→ R50♦ 2.38 2.15 R18-→R50- 2.38 2.15 0.35
Table 4. Comparison between offline and online distill on ImageNet. 表4。 ImageNetにおけるオフライン蒸留とオンライン蒸留の比較 0.52
Inferring teacher logits during training (online) achieves both lower ER and NFR compared to pre-extracting it (offline). トレーニング(オンライン)中に教師のロジットを推定すると、事前抽出する(オフライン)よりも低いERとNFRの両方が得られる。
訳抜け防止モード: 教員の授業中のロジット推定(オンライン) Preに比べて低いERとNFRの両方を実現します。
0.66
Fine-tuning on other datasets. 他のデータセットの微調整。 0.55
We validate the effectiveness of ELODI when transferring to iNaturalist [50] following the protocol in [54]. 54]のプロトコルに従ってiNaturalist[50]に転送する際のELODIの有効性を検証する。 0.81
Results of both full-data and datagrowth setting are summarized in Table 3. 全体データとデータグロース設定の両方の結果を表3にまとめる。 0.74
5.2. Choice of the Guiding Ensemble Homogeneous vs. all-different ensembles. 5.2. 誘導型アンサンブルと全微分アンサンブルの選択 0.33
Analysis in Section 3.2 suggests that in ELODI we can use ensembles with all members having the same architectures, referred to as homogeneous ensembles. セクション3.2の分析では、ELODIでは、同じアーキテクチャを持つ全てのメンバーとアンサンブルを使うことができることを示唆している。 0.59
However, in ensemble learning, members with strong diversity such as model architectures are usually favored for better generalization [31]. しかし、アンサンブル学習においては、モデルアーキテクチャのような強力な多様性を持つメンバーは、通常、より良い一般化のために好まれる[31]。 0.51
In Table 5, we observe that using homogeneous ensemble for guidance achieves comparable results in both NFR and ER than the “all-different” guiding ensembles. 表5では、誘導に同質なアンサンブルを用いることで、NFRとERの双方で「全微分」誘導アンサンブルと同等の結果が得られる。 0.55
This suggests that strong diversity in a guiding ensemble may not lead to better NFR reduction. これは、誘導アンサンブルの強い多様性がnfr低減に繋がらないことを示唆している。 0.56
Adding to this observation that ELODI with homogeneous ensembles is also easier to implement and extend, we use it in all remaining experiments. 均質なアンサンブルを持つELODIは実装や拡張も容易であるというこの観察に加え、残りのすべての実験で使用しています。 0.67
Scatter plot of ER vs. NFR. ER対NFRの散乱プロット 0.44
The x-axis is ER of Figure 4. x軸は図4のERである。 0.87
the deployed ResNet-50 and y-axis is NFR of the ResNet-50 w.r.t. previous ResNet-18. 配備されたResNet-50とy軸は、以前のResNet-18のNFRである。 0.59
The more left and lower the better. ELODI improves both ER and NFR than baseline methods. 左と下の方がよい。 ELODIはERとNFRの両方をベースライン法よりも改善する。 0.59
ELODI is close to the ensemble paragon, without its prohibitive computation cost. ELODIはエンサンブルパラゴンに近いが、計算コストは禁じられている。 0.60
Method None FD [54] 方法 FD[54]なし 0.58
LDI Increasing #classes LDI #class の増加 0.62
Error Rate↓(%) R18(cid:72)(cid:35) R50(cid:35) 24.66 22.02 39.96 26.67 22.44 23.15 R18(cid:72)(cid:35) R50(cid:35) 24.66 22.02 39.96 26.67 22.44 23.15 0.28
- NFR↓ 14.07 5.45 4.82 4.12 4.19 - NFR! 14.07 5.45 4.82 4.12 4.19 0.32
NFR↓ Increasing #samples/class Error Rate↓(%) R18(cid:72)(cid:35) R50(cid:35) 24.66 34.26 33.06 26.17 22.44 23.15 NFR! R18(cid:72)(cid:35) R50(cid:35) 24.66 34.26 33.06 26.17 22.44 23.15 0.30
3.52 2.65 2.60 2.11 2.25 3.52 2.65 2.60 2.11 2.25 0.22
29.16 34.08 29.16 34.08 0.25
- Ens. (8×) 18.70 ELODI 21.80 - Ens. (8×) 18.70 ELODI 21.80 0.40
Table 2. ELODI in data-growth settings on ImageNet. 表2。 ImageNetのデータ成長設定におけるELODI。 0.75
M(cid:72)(cid:35)((c id:35)) means that M is trained and evaluated with half (full) data. M(cid:72)(cid:35)((c id:35))は、Mがトレーニングされ、半分のデータで評価されることを意味する。 0.72
(a) Varying loss weights. (a)損失重量の変動。 0.74
(b) Reference ensemble size. (b)参照アンサンブルサイズ。 0.62
Figure 5. Ablating loss weights and ensemble sizes for ELODI on ImageNet. 図5。 ImageNet上のELODIの損失重みとアンサンブルサイズを損なう。 0.76
ER of ResNet-18 (-50) is shown in the light (dark) blue bar plot while NFR is shown in the red curve. ResNet-18(-50)のERはライト(ダーク)ブルーバープロットに表示され、NFRはレッドカーブに表示される。 0.66
Accuracy-NFR results as the ensemble paragon [54] but without the inference cost of a single model. 精度-NFRはアンサンブルパラゴン[54]として生じるが、単一モデルの推論コストは伴わない。 0.67
More update settings. アップデート設定も追加。 0.75
Model updates may also come with the growth of training data. モデルの更新は、トレーニングデータの増加に伴う可能性がある。 0.70
We consider two data growth scenarios: (1) increasing number of classes; (2) increasing number of per-class samples. 1) クラス数の増加,(2) クラス毎のサンプル数の増加,という2つのデータ成長シナリオを考察する。 0.80
Note that we use the same data/class split following [54], which uses 50% classes/samples for old model and full data for new. これは古いモデルに50%のクラス/サンプル、新しいデータに完全なデータを使用します。
訳抜け防止モード: 54 ] に続く同じデータ/クラス分割を使っていることに注意してください。 古いモデルには50パーセントのクラス/サンプル、新規にはフルデータを使用します。
0.66
From the results in Table 2, we find that conclusions from the fulldata setting also holds for these settings. Table 2の結果から、フルデータ設定からの結論もこれらの設定に当てはまります。 0.65
7 222426ResNet-50 ER (%)12345ResNet-50 NFR (%)No treatmentFocalDistil l (FD)LDI (Ours)Ensemble w/. 7 222426ResNet-50 ER (%)12345ResNet-50 NFR (%)No treatmentFocalDistil l (FD)LDI (Ours)Ensemble w/。 0.43
FDEnsemble w/. FDEnsemble w/ 0.38
KDEnsemble. KDEnsemble 0.24
ParagonELODI (Ours)0.0:1.00.5:0.5 0.67:0.330.8:0.20.9: 0.10.95:0.051.0:0.0l oss weight ratio between LDI and CE - :(1)22242628303234Ne w R-50's Error Rate (%)ResNet-18ResNet-5 0123456NFR (%)0124816ensemble size - N222426283032Error Rate (%)ResNet-18ResNet-5 0123456NFR (%) ParagonELODI (Ours)0.0:1.00.5:0.5 0.67:0.330.8:0.10.95 :0.051.0:0.0loss weight ratio between LDI and CE - :(1)22242628303234 New R-50's Error Rate (%)ResNet-18ResNet-5 0123456NFR (%)0124816ensemble size -N222426283032Error Rate (%)ResNet-18ResNet-5 0123456NFR (%)ResNet-5024283232 Error Rate (%)ResNet-5024243132 32Error Rate (%) 0.21
英語(論文から抽出)日本語訳スコア
Old Reference New Reference 旧参考 新しい参考文献 0.81
N/A R-50 (×8) N/A R-50(×8) 0.33
4.30 1.94 1.99 2.06 2.13 2.24 2.18 4.30 1.94 1.99 2.06 2.13 2.24 2.18 0.21
24.66 26.11 26.88 26.82 23.52 23.68 23.15 24.66 26.11 26.88 26.82 23.52 23.68 23.15 0.21
Error Rate↓ (%) NFR↓ (%) R18♦ R50♦ R18♦→ R50♦ 30.24 N/A 32.38 All-diff-weak All-diff-weak 32.75 Mixed-weak Mixed-weak R-18 (×8) R-18 (×8) 31.32 All-diff-weak All-diff-strong 32.35 Mixed-weak Mixed-strong 32.75 R-18 (×8) 31.32 Table 5. 誤差率: (%) nfr, (%) r18, r18, r18,→ r50, 30.24 n/a 32.38 all-diff-weak all-diff-weak 32.75 mixed-weak mixed-weak r-18 (×8) r-18 (×8) 31.32 all-diff-weak all-diff-strong 32.35 mixed-weak mixed-weak 32.75 r-18 (×8) 31.32 table 5 0.23
ELODI with different guiding ensembles. 異なる誘導アンサンブルを持つELODI。 0.67
We consider ResNet-18 → ResNet-50 via ELODI with an 8×-model ensemble. 8×モデルアンサンブルでELODIを介してResNet-18 → ResNet-50を考える。 0.65
All-diff-weak: The ensemble is composed of 8 different weak models with top-1 Acc ≈ 69% on ImageNet, including ResNet18 [23], GoogleNet [46], VGG-11, VGG-13, VGG-11-BN, VGG16 [29,43], HRNet-W18 [51], DLA-34 [55]. All-diff-weak: このアンサンブルは、ResNet18 [23]、GoogleNet [46]、VGG-11、VGG-13、VGG-11-BN、VGG16 [29,43]、HRNet-W18 [51]、DLA-34 [55]を含む、ImageNetで上位1のAcc > 69%を持つ8つの弱いモデルで構成されています。 0.63
All-diff-strong: The ensemble is composed of 8 different strong models with top-1 Acc ≈ 75% on ImageNet, including ResNet-50 [23], DenseNet121 [27], Inception-V3 [47], VGG-19-BN [43], RegNetY [39], RepVGG-A2 [13], DPN-68 [10], DLA-X-60-C [55]. All-diff-strong: このアンサンブルは、ResNet-50 [23]、DenseNet121 [27]、Inception-V3 [47]、VGG-19-BN [43]、RegNetY [39]、RepVGG-A2 [13]、DPN-68 [10]、DLA-X-60-C [55]を含む8つの強力なモデルで構成されています。 0.73
Mixedweak: The ensemble is composed a mixture of 4× ResNet-18 [23] and 4× VGG-13 [43]. Mixedweak: アンサンブルは4×ResNet-18[23]と4×VGG-13[43]の混合物で構成されています。 0.68
Mixed-strong: The ensemble is composed a mixture of 4× ResNet-50 [23] and 4× DenseNet-121 [27]. 混合強: アンサンブルは4× resnet-50 [23]と4× densenet-121 [27]の混合物からなる。 0.69
Change of architecture for the guiding ensemble. ガイドアンサンブルのためのアーキテクチャの変更。 0.63
In Table 5, we find that training a new model guided by an ensemble with the old model’s architecture has to trade ER for reduction of NFR, which is not desired. 表5では、古いモデルのアーキテクチャとのアンサンブルによって導かれる新しいモデルのトレーニングは、NFRの削減のためにERを交換する必要があるが、それは望ましくない。 0.71
This corroborates with the hypothesis in Section 3.2 that models with different architectures has different representation landscape and thus it is better to use the ensemble with the same architecture of the single model for guiding ELODI. これは第3.2節で異なるアーキテクチャのモデルが異なる表現のランドスケープを持つという仮説と相関しているため、単一モデルの同じアーキテクチャのアンサンブルを使ってELODIを導く方がよい。 0.81
When a system has gone through multiple updates, always guiding ELODI with the new model’s architecture also provides a clear guideline for practice. システムが複数の更新を経た場合、新しいモデルのアーキテクチャで常にELODIを導くことは、プラクティスの明確なガイドラインも提供します。 0.82
5.3. Ablation Studies 5.3. アブレーション研究 0.53
The effect of loss weight. We experiment with different loss weight α and summarize the results in Figure 5a. 損失重量の影響です 損失重量の異なるαを実験し、その結果を図5aにまとめる。 0.72
αELODI = 0 is equivalent to the no-treatment baseline. αELODI = 0 は非処理ベースラインと同値である。 0.74
When αLDI increases from 0.5 to 1, the distilled model’s ER first decreases and then increases for both ResNet-18 and ResNet-50. αLDIが0.5から1に増加すると、蒸留モデルのERはまず減少し、ResNet-18とResNet-50の両方で増加する。 0.63
On the other hand, NFR consistently decreases and stays at around 2.2%. 一方、NFRは一貫して減少し、約2.2%にとどまる。 0.66
We find αELODI = 0.8 achieves a good balance between the distilled model’s ER and NFR. αELODI = 0.8 は蒸留モデルの ER と NFR のバランスが良好であることがわかった。 0.81
Therefore we use it by default for all ELODI experiments. したがって、すべてのELODI実験にデフォルトで使用します。 0.80
The size of reference ensemble. 参照アンサンブルのサイズ。 0.48
We study ELODI’s efficiency for reducing NFR by varying the ensemble size m in Figure 5b. 図5bのアンサンブルサイズmを変化させることで,NFR削減のためのELODIの効率について検討した。
訳抜け防止モード: elodiの効率を 図5bにおけるアンサンブルサイズmの変化によるnfrの低減。
0.66
The case of m = 1 can be viewed as self distillation [57] except that the new model’s weight is re-initialized with a different random seed. m = 1 の場合、新しいモデルの重みが異なるランダムシードで再初期化されている以外は自己蒸留 [57] と見なすことができる。 0.78
NFR decreases from 4.30% to 2.15% by when the ensemble size increases from 1 to 8. nfrはアンサンブルサイズが1から8に大きくなると4.30%から2.15%に減少する。 0.61
8 Online vs. offline distillation. 8 オンライン対オフライン蒸留 0.57
In ELODI, the ensemble’s logits can be either inferred during training (online) or preextracted before training (offline). ELODIでは、アンサンブルのログはトレーニング(オンライン)中に推測されるか、トレーニング(オフライン)前に事前抽出される。
訳抜け防止モード: ELODIでは、アンサンブルのログはトレーニング中(オンライン)に推測できる。 あるいはトレーニング前に事前抽出する(オフライン)。
0.73
In Table 4, we find that offline distillation is less effective in reducing NFR and ER. 表4では、オフライン蒸留はNFRとERを減らす効果が低い。 0.64
Therefore we use the online approach in all experiments.6 したがって、あらゆる実験にオンラインアプローチを使用します。 0.62
Updates to dissimilar architectures. 異なるアーキテクチャへのアップデート。 0.74
In Table 6, we verify whether ELODI is applicable to updates across dissimilar architectures (ResNet-18 → DenseNet-161/Tiny Swin Transformer [35]) in addition to similar ones (ResNet-18 → ResNet-101). 表6では、ELODIが類似アーキテクチャ(ResNet-18 → DenseNet-161/Tiny Swin Transformer [35])と類似アーキテクチャ(ResNet-18 → ResNet-101)の更新に適用可能であるかどうかを検証する。 0.74
We see that ELODI effectively reduces NFR in all cases, with retained or sometimes decreased ER. ELODIはすべての症例においてNFRを効果的に減少させ,ERは持続的あるいは時折低下する。 0.61
ELODI on a chain of model updates. モデル更新の連鎖におけるELODI。 0.85
We study the transitivity of NFR reduction induced by ELODI in chain updates of three models, i.e. ResNet-18 → ResNet-50 → ResNet101. ELODIにより誘導されるNFR還元の遷移度を3つのモデルのチェーン更新、すなわちResNet-18 → ResNet-50 → ResNet101で調べる。 0.69
As shown in Table 7a, with ELODI, the NFR between the three models tested reduced to 2.04% ∼ 2.25% from 3.92% ∼ 4.41% (a relative reduction of 44.1% ∼ 52.3%), outperforming all previous methods, including variants of FD [54] and LDI. 表7aのelodiで示されているように、3つのモデルのnfrは3.92%の4.41%(44.1%の相対的減少)から2.04%の2.25%に低下し、fd [54]とldiの変種を含む全ての以前の方法よりも優れていた。 0.70
Note this is achieved without crafting the complex reference schemes which are necessary for the baseline method since they require old models’ references. これは、古いモデルの参照を必要とするため、ベースラインメソッドに必要な複雑な参照スキームを作成することなく達成される。 0.76
Integrating ELODI with existing models. ELODIを既存のモデルに統合する。 0.71
In Table 7b, we consider three models, ResNet-18 → ResNet-50 → ResNet101, where the ResNet-18 model is trained without ELODI. 表7bでは、ResNet-18 → ResNet-50 → ResNet101という3つのモデルについて検討する。 0.82
Therefore both ResNet-50♦ and -101♦ will have a higher NFR compared with ResNet-18. したがって、ResNet-50 と -101 は、ResNet-18 よりも高い NFR を持つ。 0.63
To handle this, we introduce an additional LDI loss targeted at ResNet-18 when training ResNet-50 and (or) ResNet-101 using ELODI. そこで本稿では,ResNet-50と(あるいは)ResNet-101をELODIでトレーニングする場合に,ResNet-18をターゲットとしたLDI損失を新たに導入する。 0.58
We can see that ELODI +LDI outperforms ELODI w/o. ELODI + LDI は ELODI w/o よりも優れています。 0.67
LDI on all pairwise NFRs, indicating that augmenting ELODI with the LDI loss towards the existing model is effective in dealing with this legacy case. LDI はすべての NFR において,従来のモデルに対する LDI の損失による ELODI の増大が,このレガシケースの処理に有効であることを示す。 0.78
6. Discussion Our experiments show that ELODI performs positive congruent training by reducing negative flips with large logit displacement and reducing the variance of logits from the ensemble estimates. 6.討論 実験の結果,ELODIはロジット変位が大きい負のフリップを減らし,アンサンブル推定値からのロジットのばらつきを減らし,正の合同訓練を行うことがわかった。 0.52
But there could still be negative flip samples with small logit displacement. しかし、小さなロジット変位を持つ負のフリップサンプルもあるかもしれない。 0.63
As discussed in Sec. 3.2 and observed in experiments, both ELODI and the ensemble paragon are not able to address the negative flips caused by the difference of representation landscape caused by architectural change. Sec.2で議論され、実験で観察されたように、ELODIとアンサンブルパラゴンは、アーキテクチャの変化によって引き起こされる表現景観の違いによって引き起こされる負のフリップに対処できない。 0.65
Mitigating this would require further analysis of the influence of neural network architecture design in PC training. これを緩和するには、pcトレーニングにおけるニューラルネットワークアーキテクチャ設計の影響をさらに分析する必要がある。
訳抜け防止モード: 転じて PCトレーニングにおけるニューラルネットワークアーキテクチャ設計の影響をさらに分析する必要がある。
0.82
Another limitation of ELODI is that the training cost is still higher than the normal training process of a classification model update, due to the additional training of the ensemble and online inference of the ensemble logits, calling for further efficiency improvement. elodiのもうひとつの制限は、アンサンブルの追加トレーニングとアンサンブルロジットのオンライン推論により、分類モデルの更新の通常のトレーニングプロセスよりもトレーニングコストが依然として高いことである。
訳抜け防止モード: ELODIのもう1つの制限は、トレーニングコストが分類モデル更新の通常のトレーニングプロセスよりも高いことである。 アンサンブルのさらなる訓練と アンサンブルのロジットのオンライン推論により さらなる効率向上を 要求しています
0.73
6For ELODI with larger models and ensemble size (e g 8× DenseNet161), GPU memory becomes a bottleneck. 6より大きなモデルとアンサンブルサイズ(例8×DenseNet161)を持つELODIでは、GPUメモリがボトルネックとなる。 0.77
We use gradient checkpointing [9] and reduce batch size while linearly scaling base learning rate [20]. 勾配チェックポイント[9]を使用して,ベース学習率[20]を線形にスケーリングしながらバッチサイズを削減する。 0.76
英語(論文から抽出)日本語訳スコア
ER↓ (%) R-18 (old) ERU(%)R-18(旧) 0.73
None (single) none (複数形 nones) 0.65
LDI Ensemble (8×) ELODI (N = 8) LDI アンサンブル(8×) elodi (n = 8) 0.58
30.24 - 26.34 31.34 30.24 - 26.34 31.34 0.32
ER↓ (%) NFR↓ (%) R-101 → R-101 24.66 23.71 20.05 21.09 R-101 → R-101 24.66 23.71 20.05 21.09 0.35
3.64 2.57 1.72 2.19 3.64 2.57 1.72 2.19 0.23
ER↓ (%) NFR↓ (%) D-161 → D-161 21.82 22.16 18.90 21.74 D-161 → D-161 21.82 22.16 18.90 21.74 0.35
3.73 2.85 2.06 2.57 3.73 2.85 2.06 2.57 0.23
ER↓ (%) NFR↓ (%) SwinT → SwinT 20.40† 19.74 18.37 19.84 エルシュ(%) nfr (%) swint → swint 20.40> 19.74 18.37 19.84 0.44
3.77 2.56 2.60 2.95 3.77 2.56 2.60 2.95 0.23
Table 6. ELODI with different architectures on ImageNet. 表6。 ImageNet上の異なるアーキテクチャを持つELODI。 0.59
ELODI effectively reduces NFR on a wide range of architectures. ELODIは、幅広いアーキテクチャ上のNFRを効果的に削減する。 0.62
† is obtained by our reproduction with different augmentation and training schedule. は、異なる増補とトレーニングスケジュールで再生することで得られる。 0.60
Note that all new models’ NFR is measured w.r.t. ResNet18 listed in the leftmost column. すべての新しいモデルのNFRは、最左の列にリストされているResNet18で測定されている。 0.56
Method Pairwise NFR 方法 ペアワイズnfr 0.45
No treatment R-18 FD (chain) 治療なし R-18 FD (複数形 FDs) 0.58
FD (radial) FD (複数形 FDs) 0.65
FD (fc) FD (複数形 FDs) 0.66
LDI (chain) LDI (複数形 LDIs) 0.71
LDI (radial) LDI (複数形 LDIs) 0.65
LDI (fc) LDI (複数形 LDIs) 0.65
R-18 R-18 R-18 R-18 R-18 R-18 0.29
R-18 R-18 R-18 R-18 R-18 R-18 0.29
4.28% 2.90% 4.28% 2.90% 0.35
2.90% 2.90% 2.90% 2.90% 0.35
2.86% 2.86% 2.86% 2.86% 0.35
2.86% 3.92% R-50 2.86% 3.92%R-50 0.31
3.46% R-50 2.63% R-50 3.46%R-50 2.63%R-50 0.54
2.96% R-50 2.69% R-50 2.96%R-50 2.69%R-50 0.41
2.57% R-50 2.68% R-50 2.57%R-50 2.68%R-50 0.41
4.41% R-101 4.41% R-101 0.32
2.13% 2.33% 2.13% 2.33% 0.35
R-101 R-101 R-101 R-101 0.29
1.97% R-101 1.97% R-101 0.32
2.35% 3.09% 2.35% 3.09% 0.35
2.96% R-101 2.96% R-101 0.32
R-101 R-101 R-101 R-101 0.29
ELODI (chain) R-18♦ ELODI(チェーン)R-18。 0.66
2.19% R-50♦ 2.19% R-50。 0.49
2.04% 2.25% 2.04% 2.25% 0.35
R-101♦ (a) Sequential update. R-101 (a) 順次更新。 0.30
(1) chain: each model targets at its closest predecessor; (2) radial: each model targets at its farthest ancestor; (3) fully-connected (fc): each model targets at all its ancestors. 1)連鎖:各モデルが最寄りの先駆者、(2)ラジアル:各モデルが最遠の祖先を、(3)完全連結(fc)が全ての祖先をターゲットとする。
訳抜け防止モード: (1)鎖:各モデルが最も近い前駆体のターゲット; (2)ラジアル;各モデルが最も遠い祖先のターゲット; (3)完全連結(fc) それぞれのモデルはすべての祖先を標的にしています
0.83
LDI usage Pairwise NFR LDIの使用状況 ペアワイズnfr 0.57
None Once Both R-18 なし 一度 両方 R-18 0.60
2.98% R-18 2.98% R-18 0.32
2.85% R-18 2.85% R-18 0.32
2.85% 2.56% 2.85% 2.56% 0.35
R-50♦ 2.56% R-50 2.56% 0.31
R-50♦ 2.48% R-50♦ R-50 2.48%のr-50。 0.34
R-101♦ R-101♦ R-101 R-101 0.26
2.25% 2.14% 2.25% 2.14% 0.35
R-101♦ 2.12% R-101 2.12% 0.30
(b) Integrating ELODI with existing models. b)既存のモデルとELODIを統合する。 0.80
Table 7. Pairwise NFR on multiple models. 表7。 複数のモデル上のペアワイズnfr。 0.50
M1 → M2 means that we measure M2’s NFR w.r.t. M1. M1 → M2 は M2 の NFR w.r.t. M1 を測定することを意味する。 0.67
M1 ⇒ M2 means that M2 is trained with M1 being teacher using distillation loss, e g FD or LDI. M1はM2であり、M1は蒸留損失、例えばFDやLDIを用いて教師として訓練される。 0.74
M♦ means that M is trained from ELODI. M は ELODI から M を訓練することを意味する。 0.71
References [1] Zeyuan Allen-Zhu and Yuanzhi Li. 参考文献 [1]Zeyuan Allen-ZhuとYuanzhi Li。 0.55
Towards understanding ensemble, knowledge distillation and self-distillation in deep learning. 深層学習におけるアンサンブル,知識蒸留,自己蒸留の理解に向けて 0.68
arXiv preprint arXiv:2012.09816, 2020. arxiv プレプリント arxiv:2012.09816, 2020 0.42
2 [2] Xiang An, Xuhan Zhu, Yang Xiao, Lan Wu, Ming Zhang, Yuan Gao, Bin Qin, Debing Zhang, and Fu Ying. 2 [2]Xiang An, Xuhan Zhu, Yang Xiao, Lan Wu, Ming Zhang, Yuan Gao, Bin Qin, Debing Zhang, Fu Ying
訳抜け防止モード: 2 [2 ]Xiang An, Xuhan Zhu, Yang Xiao, ランウー氏、明章氏、元高氏、ビン・チン氏 Zhang氏、Fu Ying氏。
0.57
Partial fc: Training 10 million identities on a single machine. パーシャルfc: 1台のマシンで1000万のidを訓練する。 0.59
In Arxiv 2010.05222, 2020. 2020年、arxiv 201005222。 0.64
5 [3] Umar Asif, Jianbin Tang, and Stefan Harrer. 5 [3]Umar Asif、Jianbin Tang、Stefan Harrer。 0.36
Ensemble knowledge distillation for learning improved and efficient networks. 改良された効率的なネットワーク学習のためのアンサンブル知識蒸留 0.64
In ECAI, 2020. 2020年、ECAI。 0.65
3 [4] Gagan Bansal, Besmira Nushi, Ece Kamar, Daniel S Weld, Walter S Lasecki, and Eric Horvitz. 3 Gagan Bansal氏、Besmira Nushi氏、Ece Kamar氏、Daniel S Weld氏、Walter S Lasecki氏、Eric Horvitz氏。 0.56
Updates in human-ai teams: Understanding and addressing the performance/compatib ility tradeoff. ヒューマンaiチームの更新: パフォーマンス/互換性のトレードオフの理解と対処。 0.62
In AAAI, 2019. 2019年、AAAI。 0.72
1, 2, 6 [5] Peter Bartlett, Yoav Freund, Wee Sun Lee, and Robert E Schapire. 1, 2, 6 Peter Bartlett氏、Yoav Freund氏、Wee Sun Lee氏、Robert E Schapire氏。 0.38
Boosting the margin: A new explanation for the effectiveness of voting methods. マージンを高める: 投票方法の有効性に関する新しい説明。 0.65
The annals of statistics, 26(5):1651–1686, 1998. 統計年代記 26(5):1651–1686, 1998 0.74
2 [6] Leo Breiman. 2 レオ・ブレイマン(Leo Breiman)。 0.48
Bagging predictors. Machine learning, 予測器を盗む。 機械学習。 0.54
24(2):123–140, 1996. 24(2):123–140, 1996. 0.44
2 [7] Leo Breiman. 2 レオ・ブレイマン(Leo Breiman)。 0.47
Random forests. Machine learning, 45(1):5– ランダムな森。 機械学習, 45(1):5- 0.75
32, 2001. 32, 2001. 0.42
2 [8] Tianqi Chen and Carlos Guestrin. 2 8] 天津チェンとカルロス・ゲストリン 0.52
Xgboost: A scalable tree Xgboost: スケーラブルなツリー 0.72
boosting system. ブーピング・システム 0.59
In KDD, 2016. 2016年、KDD。 0.69
2 [9] Tianqi Chen, Bing Xu, Chiyuan Zhang, and Carlos Guestrin. 2 9]天津チェン、ビン・クウ、チユアン・チャン、カルロス・ゲストリン。 0.48
arXiv Training deep nets with sublinear memory cost. arXiv サブリニアメモリコストでディープネットをトレーニングする。 0.51
preprint arXiv:1604.06174, 2016. プレプリントarxiv:1604.06174, 2016 0.48
8 [10] Yunpeng Chen, Jianan Li, Huaxin Xiao, Xiaojie Jin, In 8 [10]ユンペン・チェン、Jianan Li、Huaxin Xiao、Xiaojie Jin、In 0.58
Shuicheng Yan, and Jiashi Feng. シュイチェン・ヤン、ジアシ・フェン。 0.22
Dual path networks. デュアルパスネットワーク。 0.63
NeurIPS, 2017. neurips、2017年。 0.62
8 [11] Abhranil Das and Wilson S Geisler. 8 11] アブラニル・ダスとウィルソン・s・ガイスラー 0.43
A method to inarXiv preprint InarXiv プレプリント法 0.54
tegrate and classify normal distributions. 正規分布を分類し 分類します 0.66
arXiv:2012.14331, 2020. arXiv:2012.14331, 2020 0.35
4 [12] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 4 12]jia deng、wei dong、richard socher、li-jia li、kai li、li fei-fei。 0.47
Imagenet: A large-scale hierarchical image database. Imagenet: 大規模な階層型イメージデータベース。 0.85
In CVPR, 2009. 2009年、CVPR。 0.67
3, 6, 11, 12 3, 6, 11, 12 0.42
[13] Xiaohan Ding, Xiangyu Zhang, Ningning Ma, Jungong Han, Guiguang Ding, and Jian Sun. [13]Xiaohan Ding、Xiangyu Zhang、Ningning Ma、Jungong Han、Guiguang Ding、Jian Sun。 0.66
RepVGG: Making vgg-style convnets great again. RepVGG: vggスタイルのコンブネットを再び素晴らしいものにする。 0.60
In CVPR, 2021. CVPR 2021年。 0.62
8 [14] Thomas S Ferguson. 8 トーマス・S・ファーガソン(Thomas S Ferguson)。 0.49
A course in large sample theory. 大規模なサンプル理論のコース。 0.76
Rout- ledge, 2017. ルート 2017年、レイジ。 0.51
3 [15] Tiago M Fragoso, Wesley Bertoli, and Francisco Louzada. 3 Tiago M Fragoso氏、Wesley Bertoli氏、Francisco Louzada氏。 0.36
Bayesian model averaging: A systematic review and conceptual classification. ベイズモデル平均化: 体系的レビューと概念的分類。 0.82
International Statistical Review, 86(1):1– 28, 2018. 国際統計書86(1):1–28。 0.61
2 [16] Yoav Freund and Robert E Schapire. 2 16] ヨアヴ・フルールと ロバート・e・シャピレ 0.44
A decision-theoretic generalization of on-line learning and an application to オンライン学習の意思決定論的一般化とその応用 0.79
9 9 0.42
英語(論文から抽出)日本語訳スコア
boosting. 55(1):119–139, 1997. ブースティング 55(1):119–139, 1997. 0.34
2 Journal of computer and system sciences, 2 Journal of Computer and System Science (英語) 0.60
[17] Takashi Fukuda, Masayuki Suzuki, Gakuto Kurata, Samuel Thomas, Jia Cui, and Bhuvana Ramabhadran. [17]福田孝、鈴木正之、倉田学藤、サミュエル・トーマス、ジークイ、ブーバナ・ラマダーラン。 0.55
Efficient knowledge distillation from an ensemble of teachers. 教師集団による効率的な知識蒸留 0.63
In Interspeech, 2017. 2017年、インターセクター。 0.65
3 [18] Yarin Gal and Zoubin Ghahramani. 3 [18]ヤリン・ガルとゾウビン・ガーラマーニ。 0.53
Dropout as a bayesian approximation: Representing model uncertainty in deep learning. ベイズ近似としてのドロップアウト:ディープラーニングにおけるモデル不確実性を表現する。 0.54
In ICML, 2016. 2016年、ICML。 0.70
3 [19] Timur Garipov, Pavel Izmailov, Dmitrii Podoprikhin, Dmitry Vetrov, and Andrew Gordon Wilson. 3 Timur Garipov氏、Pavel Izmailov氏、Dmitrii Podoprikhin氏、Dmitry Vetrov氏、Andrew Gordon Wilson氏。 0.37
Loss surfaces, mode connectivity, and fast ensembling of dnns. 表面の損失、モード接続、dnnの高速化。 0.55
In NeurIPS, 2018. 2018年、ニューロピス。 0.50
2 [20] Priya Goyal, Piotr Doll´ar, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, large miniYangqing Jia, and Kaiming He. 2 Priya Goyal, Piotr Doll ́ar, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch, large miniYangqing Jia, and Kaiming He。
訳抜け防止モード: 2 [20 ]Priya Goyal, Piotr Doll ́ar, Ross Girshick, Pieter Noordhuis, Lukasz Wesolowski, Aapo Kyrola, Andrew Tulloch 大ミニヤンキングジアとカイミングヘ。
0.56
Accurate, arXiv preprint batch sgd: Training imagenet in 1 hour. 正確には、arxivプリプリントバッチsgd: training imagenet in 1 hour。 0.67
arXiv:1706.02677, 2017. arxiv:1706.02677、2017年。 0.36
8 [21] Trevor Hastie, Saharon Rosset, Ji Zhu, and Hui Zou. 8 21]トレヴァー・ハスティ、サハロン・ロセット、ジ・ジュ、フイ・ゾウ 0.42
Multiclass adaboost. マルチクラスアダブースト。 0.43
Statistics and its Interface, 2(3):349–360, 2009. 統計学とインターフェース, 2(3):349–360, 2009 0.88
2 [22] Marton Havasi, Rodolphe 2 [22]マルトン・ハバシ,ロドルフ 0.46
Stanislav Fort, Jeremiah Zhe Liu, Jasper Snoek, Balaji Lakshminarayanan, Andrew M Dai, and Dustin Tran. スタニスラフ要塞、ジェレミア・ジ・リウ、ジャスパー・スヌーク、バラジ・ラクシュミナラヤナン、アンドリュー・m・ダイ、ダスティン・トラン。
訳抜け防止モード: Stanislav Fort, Jeremiah Zhe Liu, Jasper Snoek, Balaji Lakshminarayanan, アンドリュー・M・ダイとダスティン・トラン。
0.81
Training independent subnetworks for robust prediction. 堅牢な予測のための独立したサブネットワークのトレーニング。 0.48
In ICLR, 2021. 3 Jenatton, 2021年。 3 ジェナトン 0.40
[23] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 〔23〕開明彼、西安宗、宗清連、鑑真 0.32
In CVPR, Deep residual learning for image recognition. CVPRでは 画像認識のための深い残差学習 0.76
2016. 8 [24] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. 2016. 8 24]ジェフリー・ヒントン、オリオール・ヴィニールズ、ジェフ・ディーン 0.44
DistillarXiv preprint DistillarXiv プレプリント 0.79
ing the knowledge in a neural network. ニューラルネットワークに知識を注入する。 0.70
arXiv:1503.02531, 2015. 2015年、arxiv:1503.02531。 0.35
1, 3, 5, 6 1, 3, 5, 6 0.43
[25] Jennifer A. Hoeting, David Madigan, Adrian E. Raftery, and Chris T. Volinsky. Jennifer A. Hoeting氏、David Madigan氏、Adrian E. Raftery氏、Chris T. Volinsky氏。 0.81
Bayesian model averaging: a tutorial (with comments by M. Clyde, David Draper and E. I. George, and a rejoinder by the authors. ベイズ平均モデル チュートリアル(M. Clyde氏、David Draper氏、E.I. George氏によるコメントを含む)と著者による補足。 0.81
Statistical Science, 14(4):382 – 417, 1999. 統計学、14(4):382 - 417, 1999。 0.80
2 [26] Gao Huang, Yixuan Li, Geoff Pleiss, Zhuang Liu, John E Hopcroft, and Kilian Q Weinberger. 2 Gao Huang氏、Yixuan Li氏、Geoff Pleiss氏、Zhuang Liu氏、John E Hopcroft氏、Kilian Q Weinberger氏。 0.55
Snapshot ensembles: Train 1, get m for free. スナップショット: トレイン1:mを無償で取得する。 0.61
In ICLR, 2017. 2017年、ICLR。 0.66
2 [27] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian Q Weinberger. 2 Gao Huang氏、Zhuang Liu氏、Laurens Van Der Maaten氏、Kilian Q Weinberger氏。 0.35
Densely connected convolutional networks. 密結合した畳み込みネットワーク。 0.68
In CVPR, 2017. 2017年、CVPR。 0.68
8 [28] Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kilian Q Weinberger. 8 [28]Gao Huang氏、Yu Sun氏、Zhuang Liu氏、Daniel Sedra氏、Kilian Q Weinberger氏。 0.59
Deep networks with stochastic depth. 確率的深さの深いネットワーク。 0.70
In ECCV, 2016. 2016年、ECCV。 0.69
3 [29] Sergey Ioffe and Christian Szegedy. 3 29] セルゲイ・ヨッフェと クリスチャン・セゲディ 0.42
Batch normalization: Accelerating deep network training by reducing internal covariate shift. バッチ正規化: 内部共変量シフトの低減によるディープネットワークトレーニングの高速化。 0.65
In ICML, 2015. 2015年、ICML。 0.73
8 [30] Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu. 8 30]guolin ke、qi meng、thomas finley、taifeng wang、wei chen、weidong ma、qiwei ye、tie-yan liu。 0.47
Lightgbm: A highly efficient gradient boosting decision tree. Lightgbm: 意思決定ツリーの効率的な勾配向上。 0.76
NeurIPS, 2017. neurips、2017年。 0.62
2 [31] Ludmila I Kuncheva and Christopher J Whitaker. 2 31] ルディミラ・イ・クンチェヴァと クリストファー・j・ウィテカー 0.40
Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy. 分類器アンサンブルにおける多様性の尺度とアンサンブル精度との関係 0.64
Machine learning, 51(2):181–207, 2003. 機械学習 51(2):181–207, 2003 0.80
7 10 [32] Balaji Lakshminarayanan, Alexander Pritzel, and Charles Blundell. 7 10 Balaji Lakshminarayanan氏、Alexander Pritzel氏、Charles Blundell氏。 0.38
Simple and scalable predictive uncertainty estimation using deep ensembles. 深層アンサンブルを用いた簡易かつスケーラブルな予測不確実性推定 0.65
In NeurIPS, 2017. 2017年、ニューオリプスに移籍。 0.43
2 [33] Gustav 2 [33]グスタフ 0.50
Larsson, Michael Maire, ラーソン マイケル・メール 0.45
and Gregory Fractalnet: Ultra-deep neural networks グレゴリー・フラクタルネット:超深度ニューラルネットワーク 0.71
Shakhnarovich. without residuals. シャフナロヴィチ。 残余なし。 0.51
In ICLR, 2017. 2017年、ICLR。 0.66
3 [34] Tao Lin, Lingjing Kong, Sebastian U Stich, and Martin Jaggi. 3 34] タオ・リン、リンジュ・コング、セバスチャン・ウ・スティッチ、マルティン・ジャギー。 0.49
Ensemble distillation for robust model fusion in federated learning. 連体学習におけるロバストモデル融合のためのアンサンブル蒸留 0.72
In NeurIPS, 2020. 2020年、NeurIPS。 0.70
3 [35] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. 3 [35]Ze Liu、Yutong Lin、Yue Cao、Han Hu、Yixuan Wei、Zhen Zhang、Stephen Lin、Baining Guo。 0.56
Swin transformer: Hierarchical vision transformer using shifted windows. swin transformer:シフトウィンドウを用いた階層型視覚トランスフォーマー。 0.76
In ICCV, 2021. ICCV、2021年。 0.67
8 [36] Andrey Malinin, Bruno Mlodozeniec, and Mark Gales. 8 [36]アンドレイ・マリニン、ブルーノ・ムロドゼニエク、マーク・ゲイルズ。 0.44
En- semble distribution distillation. In ICLR, 2020. 円 精液の蒸留 ICLR、2020年。 0.43
3 [37] Arakaparampil M Mathai and Serge B Provost. 3 [37]Arakaparampil M MathaiとSerge B Provost。 0.40
Quadratic forms in random variables: theory and applications. 確率変数の二次形式:理論と応用。 0.65
Dekker, 1992. 1992年、デビュー。 0.60
4 [38] Emanuel Parzen. 4 エマニュエル・パーゼン(Emanuel Parzen)。 0.47
On estimation of a probability density function and mode. 確率密度関数とモードの推定について 0.72
The annals of mathematical statistics, 33(3):1065–1076, 1962. 数学統計の年代記 33(3):1065–1076, 1962 0.78
4 [39] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, and Piotr Doll´ar. 4 39]Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, Piotr Doll ́ar。 0.40
Designing network design spaces. ネットワーク設計空間の設計。 0.89
In CVPR, 2020. CVPR、2020年。 0.72
8 [40] Steven Reich, David Mueller, and Nicholas Andrews. 8 40] スティーブン・ライヒ デヴィッド・ミュラー ニコラス・アンドリュース 0.44
Ensemble distillation for structured prediction: Calibrated, accurate, fast-choose three. 構造予測のためのアンサンブル蒸留 : 校正, 精度, 高速チョース3。 0.71
In EMNLP, 2020. EMNLP、2020年。 0.71
3 [41] EL Rvaˇceva. 3 背番号は「41」。 0.41
On domains of attraction of multi-dimensional distributions. 多次元分布の魅力の領域について 0.65
Selected Translations in Mathematical Statistics and Probability, 2:183–205, 1962. 数学統計学と確率における選択翻訳 2:183–205, 1962 0.69
3 [42] Yantao Shen, Yuanjun Xiong, Wei Xia, and Stefano Soatto. 3 [42]ヤンタオ・シェン、Xiong元順、Wei Xia、Stefano Soatto。 0.56
In Towards backward-compatible representation learning. 院 後方互換性のある表現学習を目指す。 0.45
CVPR, 2020. CVPR、2020年。 0.88
2, 6, 11, 12 2, 6, 11, 12 0.42
[43] Karen Simonyan and Andrew Zisserman. 43]カレン・シモンヤンとアンドリュー・ジッセルマン 0.61
Very deep convolutional networks for large-scale image recognition. 大規模画像認識のための深層畳み込みネットワーク 0.78
arXiv preprint arXiv:1409.1556, 2014. arxiv プレプリント arxiv:1409.1556, 2014 0.45
8 [44] Megha Srivastava, Besmira Nushi, Ece Kamar, Shital Shah, and Eric Horvitz. 8 44] Megha Srivastava, Besmira Nushi, Ece Kamar, Shital Shah, Eric Horvitz。 0.39
An empirical analysis of backward comIn KDD, 2020. 逆行性 comIn KDD, 2020 の実証解析 0.55
2, patibility in machine learning systems. 2. 機械学習システムにおける可搬性。 0.74
5 [45] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 5 45]ニティッシュ・スリヴァスタヴァ、ジェフリー・ハンプソン、アレックス・クリゾフスキー、イリヤ・スツクヴァー、ラスラン・サラフツディノフ 0.39
Dropout: a simple JMLR, way to prevent neural networks from overfitting. ドロップアウト: 単純なJMLR、ニューラルネットワークのオーバーフィットを防ぐ方法。 0.61
15(1):1929–1958, 2014. 15(1):1929–1958, 2014. 0.44
3 [46] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. 3 46]Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich。
訳抜け防止モード: 3 [46 ]クリスチャン・セゲディ,ワイ・リュー,ヤンキング・ジア, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan ヴィンセント・ヴァンホッケとアンドリュー・ラビノヴィチ。
0.55
Going deeper with convolutions. 畳み込みでさらに深く進む。 0.61
In CVPR, 2015. 2015年、CVPR。 0.69
8 [47] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. 8 47]Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens、Zbigniew Wojna。 0.37
Rethinking the inception architecture for computer vision. コンピュータビジョンのためのインセプションアーキテクチャを再考する。 0.68
In CVPR, 2016. 2016年、CVPR。 0.69
8 [48] Mariya Toneva, Alessandro Sordoni, Remi Tachet des Combes, Adam Trischler, Yoshua Bengio, and Geoffrey J Gordon. 8 Mariya Toneva氏、Alessandro Sordoni氏、Remi Tachet des Combes氏、Adam Trischler氏、Yoshua Bengio氏、Geoffrey J Gordon氏。
訳抜け防止モード: 8 [48 ]Mariya Toneva, Alessandro Sordoni, Remi Tachet des Combes, アダム・トリシュラー、ヨシュア・ベンジオ、ジェフリー・J・ゴードン。
0.55
An empirical study of example forgetting during deep neural network learning. ディープニューラルネットワーク学習中に忘れられる例の実証的研究 0.67
In ICLR, 2019. 2019年、ICLR。 0.66
2 [49] Frederik Tr¨auble, Julius von K¨ugelgen, Matth¨aus Kleindessner, Francesco Locatello, Bernhard Sch¨olkopf, and Peter 2 49]フレデリク・トラ・シャウブル,ユリウス・フォン・ジュゲルゲン,マトス・シャウシュ・クラインデスナー,フランチェスコ・ロカテロ,ベルンハルト・シュ・ショルコプフ,ペーター 0.39
英語(論文から抽出)日本語訳スコア
Gehler. Backward-compatible prediction updates: A probabilistic approach. ゲーラー 後方互換性のある予測更新:確率的アプローチ。 0.52
In NeurIPS, 2021. ニューロプスでは2021年 0.50
2, 6 [50] Grant Van Horn, Oisin Mac Aodha, Yang Song, Yin Cui, Chen Sun, Alex Shepard, Hartwig Adam, Pietro Perona, and Serge Belongie. 2, 6 Grant Van Horn, Oisin Mac Aodha, Yang Song, Yin Cui, Chen Sun, Alex Shepard, Hartwig Adam, Pietro Perona, Serge Belongie。
訳抜け防止モード: 2, 6 [50 ]グラント・ヴァン・ホーン、オアシン・マック・オーダ、ヤン・ソング、 Yin Cui, Chen Sun, Alex Shepard, Hartwig Adam Pietro PeronaとSerge Belongie。
0.59
The iNaturalist species classification and detection dataset. iNaturalist種分類と検出データセット。 0.73
In CVPR, 2018. 2018年、CVPR。 0.65
6, 7 [51] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, et al Deep high-resolution representation learning for visual recognition. 6, 7 [51]ジンドンワン、ケ・サン、ティアンヘン・チェン、ボルーイ・ジアン、チャオルイ・デン、ヤン・ジャオ、ドン・リウ、ヤドン・ム、ミンクイ・タン、シンガン・ワン、その他視覚認識のための高精細な表現学習。
訳抜け防止モード: 6, 7 [51 ]広東王,ケ・スン,ティアン・チェン, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu Yadong Mu, Mingkui Tan, Xinggang Wang, et al High - 視覚認識のための解像度表現学習。
0.61
TPAMI, 43(10):3349– 3364, 2020. TPAMI, 43(10):3349–3364, 2020。 0.95
8 [52] Yeming Wen, Dustin Tran, and Jimmy Ba. 8 52] イェミング・ウェン、ダスティン・トラン、ジミー・バ 0.44
BatchEnsemble: an alternative approach to efficient ensemble and lifelong learning. BatchEnsemble: 効率的なアンサンブルと生涯学習のための代替アプローチ。 0.75
In ICLR, 2020. ICLR、2020年。 0.72
3 [53] Yuqing Xie, Yi-an Lai, Yuanjun Xiong, Yi Zhang, and Stefano Soatto. 3 [53]ユキョンシー、イ・アン・ライ、ユキョンジュン、イ・ジャン、ステファノ・サットー 0.45
Regression bugs are in your model! measuring, reducing and analyzing regressions in nlp model updates. 回帰バグはモデルにあります! nlpモデルの更新で回帰を計測、削減、分析します。 0.72
In ACL, 2021. ACL、2021年。 0.69
1 [54] Sijie Yan, Yuanjun Xiong, Kaustav Kundu, Shuo Yang, Siqi Deng, Meng Wang, Wei Xia, and Stefano Soatto. 1 [54]シジー・ヤン、センジュン・クンドゥ、カウスタブ・クンドゥ、シュオ・ヤン、シキー・デン、メン・ワン、ウェイ・サイア、ステファノ・サットー
訳抜け防止モード: 1 [54 ]シジーヤン、元順Xiong、Kaustav Kundu、 Shuo Yang, Siqi Deng, Meng Wang, Wei Xia とStefano Soattoは言う。
0.58
Positivecongruent training: Towards regression-free model updates. positive congruent training: レグレッションフリーモデルのアップデートに向けて。 0.66
In CVPR, 2021. CVPR 2021年。 0.62
1, 2, 3, 4, 5, 6, 7, 8, 12 1, 2, 3, 4, 5, 6, 7, 8, 12 0.42
[55] Fisher Yu, Dequan Wang, Evan Shelhamer, and Trevor Dar- [55]フィッシャー・ユ、デカン・ワン、エヴァン・シェルハマー、トレバー・ダー- 0.48
rell. Deep layer aggregation. レイル ディープ・レイヤー・アグリゲーション。 0.34
In CVPR, 2018. 2018年、CVPR。 0.65
8 [56] Li Yuan, Francis EH Tay, Guilin Li, Tao Wang, and Jiashi Feng. 8 [56]李元、フランソワ・イー・タイ、ギリン・リー、道王、Jiashi Feng。 0.53
Revisiting knowledge distillation via label smoothing regularization. ラベル平滑化規則化による知識蒸留の再検討 0.60
In CVPR, 2020. CVPR、2020年。 0.72
3 [57] Linfeng Zhang, Jiebo Song, Anni Gao, Jingwei Chen, Chenglong Bao, and Kaisheng Ma. 3 [57]林舟張、ジーボ・ソン、安仁雅、ジンワイ・チェン、チェンロン・バオ、カイシェン・マ。 0.51
Be your own teacher: Improve the performance of convolutional neural networks via self distillation. 自分自身の教師になる:自己蒸留による畳み込みニューラルネットワークのパフォーマンスを改善する。 0.76
In ICCV, 2019. ICCV、2019年。 0.67
3, 8 11 A. Visualization on More Data Points 3, 8 11 A. より多くのデータポイントの可視化 0.51
As mentioned in Section 3.1 and Section 3.3 of main text, we provide more examples to verify our hypothesis. 主文の3.1節と3.3節で述べたように、仮説の検証にはさらに多くの例を挙げる。 0.60
We select four images of two classes from ImageNet [12], which are illustrated in Figure 6, as input data. 図6に示すイメージネット[12]から,2つのクラスの4つのイメージを入力データとして選択する。 0.81
With these input images, the estimated probability mass function (PMF) of logit displacement between two single model and two ensembles are shown in Figure これらの入力画像を用いて、2つの単一モデルと2つのアンサンブル間のロジット変位の推定確率質量関数(pmf)を図に示す。 0.77
7. We can observe that the logit displacements are reduced with ensembles, which verifies our hypothesis of output logit vectors are actually independent and identically distributed (i.i.d.) random variables and with multi-dimensional central limit theorem (CLT), their sum is a normal distribution (Eq. 7. ロジットの変位はアンサンブルによって減少し、出力ロジットベクトルの仮説が実際に独立かつ同値に分布する確率変数 (i.i.d.) と多次元中央極限定理 (clt) を持つ場合、それらの和は正規分布 (eq) となる。 0.84
(1)). To verify our hypothesis in higher dimension space, we train a standard ResNet-18 on full ImageNet dataset with 256 random seeds. (1)). 高次元空間での仮説を検証するため、256個のランダムシードを持つフルイメージネットデータセット上で標準のResNet-18をトレーニングする。 0.56
We take the images in Figure 6 as inputs and illustrate the (cid:96)2 norm histogram of logit displacement between two random ensembles with different ensemble sizes in Figure 図6の画像を入力として、図2のアンサンブルサイズが異なる2つのランダムアンサンブル間のロジット変位の標準ヒストグラム(cid:96)を示す。 0.78
8. For heterogeneous case, we train a standard ResNet-50 on full ImageNet dataset and observe the (cid:96)2 norm histogram of logit displacement between a random ResNet-18 ensembles and a random ResNet-50 ensembles with different ensemble sizes. ヘテロジニアスなケースでは、フルイメージネットデータセット上で標準のResNet-50をトレーニングし、ランダムなResNet-18アンサンブルとランダムなResNet-50アンサンブルの間のロジト変位の標準ヒストグラム(cid:96)2を観察する。 0.68
The results are shown in Figure 9. 結果は図9に示されています。 0.80
B. Features of the Penultimate Layer b. ペナルティメート層の特徴 0.63
We have discussed the representation landscape of PCTraining in the main text at the logit space and provide some more data points above. 我々は,ロジット空間のメインテキストにおけるPCTrainingの表現環境について論じ,さらにいくつかのデータポイントを提供している。 0.64
The analysis can be done in the feature space as well. 分析は機能領域でも行うことができる。 0.62
The main challenge is that features from two arbitrary models are not directly comparable and we address this feature interoperability issue by BCT [42]. 主な課題は、2つの任意のモデルの特徴が直接的に比較できないことであり、BCT [42] によるこの機能の相互運用性の問題に対処することです。
訳抜け防止モード: 主な課題は 2つの任意のモデルの特徴は直接的に比較できない BCT[42 ]によるこの機能の相互運用性の問題に対処する。
0.73
We first introduce the BCT method and then derive that formulation to attain the feature ”penultimate layer feature” of an ensemble. まず,BCT法を導入し,その定式化を導出し,アンサンブルの「最小層特徴」を実現する。 0.53
Based on these we can analyze two-dimensional examples and the higher dimension validation experiments. これらに基づいて2次元例と高次元検証実験を解析できる。 0.77
Preliminaries. Shen et al [42] propose an approach termed BCT to align two arbitrary deep models so that the embeddings are interoperable with each other. 予備。 Shen et al [42] は BCT と呼ばれるアプローチを提案し、2つの任意の深層モデルと埋め込みが相互に相互運用できるように調整する。 0.63
Formally speaking, a model M includes an embedding module (z = F(x), a.k.a. backbone) and a classification layer (s = H(z), a.k.a. head) on top, i.e. M(x) = φ(x) = (H◦F)(x). 形式的には、モデル M は埋め込み加群 (z = F(x), a.k.a. backbone) と分類層 (s = H(z), a.k.a. head) を含む。
訳抜け防止モード: 形式的には、 モデル M は埋め込み加群 ( z = F(x )) を含む。 a.k.a . backbone ) と分類レイヤー (s = H(z )) a.k.a. Head ) 上の M(x ) = φ(x ) = ( H ) F)(x ) である。
0.89
Given a reference model M(ref), BCT imposes a loss term so that two model heads are close, i.e. H(bct) ∼ H(ref)7. 参照モデル M(ref) が与えられたとき、BCT は2つのモデルヘッドが近いように損失項を課す。
訳抜け防止モード: 参照モデル M(ref ) が与えられた場合、BCT は損失項を課す。 2つのモデルヘッドは近く、すなわち H(bct ) > H(ref)7 である。
0.83
As a result, F (bct)(x) and F (ref)(x) lie in a same vector space and are thus comparable, i.e. F (bct)(x) ∼ F (ref)(x), regardless of the underlying architecture. 結果として、F (bct)(x) と F (ref)(x) は同じベクトル空間にあるので、基礎となるアーキテクチャに関係なく、F (bct)(x) は F (ref)(x) に匹敵する。 0.76
Ensemble of many feature-interoperabl e models. 多くの機能相互運用可能なモデルを組み立てる。 0.51
It is 7In fact if we assume that H(bct) and H(ref) have the same shape, we can also do as follows: we train M(ref) and then M(bct) with parameters randomly initialized except the head copies weights from H(ref) and is fixed. 実際、H(bct) と H(ref) が同じ形状であると仮定すると、M(ref) を訓練し、H(ref) からヘッドコピーの重みを除いてパラメータをランダムに初期化して固定する。
訳抜け防止モード: 実際、H(bct ) と H(ref ) が同じ形状であると仮定すれば、それは 7 である。 M(ref ) を訓練する。 そしてパラメータを持つM(bct )は、H(ref ) のヘッドコピーウェイトを除いてランダムに初期化されます。 固定されています
0.82
Nevertheless, we follow BCT’s formulation since it is more generic. それでも、より汎用的なBCTの定式化に従う。 0.45
i 私は 0.53
英語(論文から抽出)日本語訳スコア
(a) val 00009585. (a) val 00009585。 0.39
(b) val 00015098. b) val 00015098。 0.63
(c) val 00034619. c) val 00034619。 0.65
(d) val 00014560. (d) val 00014560。 0.35
Figure 6. Four example images for visualization. 図6。 可視化のための4つの例。 0.65
The two classes we select here are “French bulldog” (n02108915) and “Welsh Corgi” (n02113023). 私たちがここで選ぶ2つのクラスは、"French bulldog"(n02108915)と"Welsh Corgi"(n02113023)です。 0.85
(a) PMF of logit displacement (a)ロジット変位のpmf 0.58
(b) PMF of logit displacement (b)ロジット変位のpmf 0.64
(c) PMF of logit displacement (c)ロジット変位のPMF 0.65
(d) PMF of logit displacement d)ロジット変位のPMF 0.55
(val 00009585). (00009585)。 0.45
(val 00015098). (約00015098)。 0.71
(val 00034619). (約00034619)。 0.73
(val 00014560). (約00014560)。 0.53
Figure 7. Estimated probability mass function (PMF) of logit displacement between two single models or ensembles. 図7。 2つの単一モデルまたはアンサンブル間のロジット変位の推定確率質量関数(PMF)。 0.77
The x, y-axes denote the two classes’ logit displacement. x, y軸は2つのクラスのロジット変位を表す。 0.69
The heatmap value denotes the estimated probability density. ヒートマップ値は推定確率密度を表す。 0.77
The ensemble’s co-variance is significantly smaller than the single model. アンサンブルの共分散は単一モデルよりもかなり小さい。 0.59
The figure is best viewed in color. 図は色が一番よく見えます。 0.76
(cid:80)F (bct) (出典:80)F(bct) 0.81
n N (x). ensemble’s feature, i.e. F (bct,ens)(x) = 1 A two-dimensional example. n N (x)。 アンサンブルの特徴、すなわち f (bct,ens)(x) = 1 は二次元の例である。 0.48
To illustrate the behavior of models in feature space, we create a toy example by selecting three classes8 from ImageNet [12] and training a ResNet-18-like models with a slight modification: the penultimate layer’s dimension is changed to 2. 機能空間におけるモデルの振る舞いを説明するために、ImageNet [12]から3つのクラス8を選択し、少し修正したResNet-18のようなモデルをトレーニングすることで、おもちゃの例を作成します。 0.79
The feature level visualization is presented in Figure 10a and Figure 10d. 機能レベルの可視化は図10aと図10dで示されます。 0.73
We can observe the similar observations as in the logit space after the penultimate layer features are aligned with BCT [42]. ペナルティメート層の特徴が bct [42] に一致する後、ロジット空間でも同様の観測を観察できる。 0.69
Validations on higher dimensions. より高次元での検証。 0.59
We repeat the highdimensional validation in text on the penultimate layer features, the results are shown in Figure 11. 我々は, 垂直層の特徴に関するテキストの高次元検証を繰り返し, 結果を図11に示す。 0.70
We see that the PMF curve fits the histogram of single models well, implying that feature of these models could indeed follow a Normal distribution. PMF曲線は単一モデルのヒストグラムによく適合しており、これらのモデルの特徴が実際に正規分布に従うことを示唆している。 0.79
We conduct the same experiments above 以上と同じ実験を行い 0.75
8“Labrador retriever” (n02099712), “Weimaraner” (n02092339), and 8「ラブラドールレトリバー」(n02099712)、「ワイマラナー」(n02092339)及び 0.67
“French bulldog” (n02108915). フランスのブルドッグ(n02108915)。 0.65
12 1 noteworthy that feature interoperability does not affect NFR as reported in [54]. 12 1 機能相互運用性は[54]で報告されたnfrには影響しない点に注意が必要だ。 0.46
We also re-validate that two models, F (bct) (x), trained using BCT w.r.t. M(ref) have similar NFR compared to two without BCT. また,2つのモデルであるF (bct) (x) がBCT w.r.t.M(ref) とBCTのないモデルと類似したNFRを持つことを示す。 0.61
However, their features are comparable, i.e. F (bct) (x) ∼ (x) ∼ F (ref)(x). しかし、それらの特徴は F (bct) (x) シュ (x) シュ F (ref)(x) に匹敵する。 0.70
So is any linear combination in F (bct) between. f(bct) 内の任意の線型結合も同様である。 0.66
(x) and F (bct) (x)及びf(bct) 0.82
The arguments hold when the number of featureinteroperable models n increases. 引数は、機能相互運用可能なモデルnの数が増えると成り立つ。 0.64
Therefore, if we write down their averaged logits, we can factor out the head, i.e. したがって、平均的なロジットを書き下すと、頭(つまり)を分解できる。 0.55
1 2 2 φ(bct,ens)(x) = 1 2 2 φ(bct,ens)(x) = 0.43
φ(bct) (x) = φ(bct) (x) = 0.64
1 N 1 N (cid:88) (cid:16)H(ref) ◦ F (bct) 1N 1N (cid:88) (cid:16)h(ref) ] f (bct) 0.41
n n n (cid:17) n n n (cid:17) 0.42
(cid:88) n (cid:88) n 0.41
≈ 1 N (cid:88) ~1N (cid:88) 0.55
n (cid:16)H(bct) (cid:32) (cid:88) n (cid:16)H(bct) (cid:32) (cid:88) 0.42
n 1 N n ◦ F (bct) n 1N n F (複数形 Fs) 0.51
n (cid:17) n (cid:17) 0.41
(x) (cid:33) (x) (cid:33) 0.41
(9) (x) = H(ref) ◦ (9) (x) = h(ref) である。 0.67
F (bct) F (複数形 Fs) 0.69
n (x) . (10) It implies that the averaged feature can be viewed as this n (x) . (10)平均的な特徴をこのように見ることができること。 0.52
404404single models404404ensemble models0.000.050.100. 150.200.250.300.350. 40404404single models404404ensemble models0.000.050.100. 150.200.250.300.350. 40404404single models404404ensemble models0.000.050.100. 150.200.250.300.350. 40404404single models404404ensemble models0.000.050.100. 150.200.250.300.350. 40 404404 シンブルモデル 404404 シンブルモデル 0.00.050.100.200.250 .350.40404404 シンブルモデル 404404 シンブルモデル 0.00.050.100.100.150 .200.250.350.4040440 4 シンブルモデル 404404 シンブルモデル 0.00.050.100.250.250 .250.350.40404404 シンブルモデル 404404 シンブルモデル 0.00.050.100.150.250 .250.250.250.250.250 .350.40.40 0.08
英語(論文から抽出)日本語訳スコア
(a) Input image: val 00009585. (a)入力画像:val 00009585。 0.71
(a) Input image: val 00009585. (a)入力画像:val 00009585。 0.71
(b) Input image: val 00015098. (b)入力画像: val 00015098。 0.72
(b) Input image: val 00015098. (b)入力画像: val 00015098。 0.72
(c) Input image: val 00034619. (c)入力画像: val 00034619。 0.74
(c) Input image: val 00034619. (c)入力画像: val 00034619。 0.74
(d) Input image: val 00014560. (d)入力画像: val 00014560。 0.34
(d) Input image: val 00014560. (d)入力画像: val 00014560。 0.34
(cid:96)2 norm histogram of logit displacement between Figure 8. (cid:96)2 図8間の対流変位の標準ヒストグラム 0.87
two random ensembles. ランダムアンサンブルが2つ 0.56
The bin size is 0.5. ビンサイズは0.5。 0.76
Two random ensembles are the same type (homogeneous, ResNet-18 vs. ResNet-18). 2つのランダムアンサンブルは同じタイプ(均質、resnet-18対resnet-18)である。 0.61
∆µ = µ1 − µ2 = 0, Σ(cid:48) = 2Σ1 = 2Σ2. ∆µ = µ1 − µ2 = 0, Σ(cid:48) = 2Σ1 = 2Σ2. 0.41
(cid:96)2 norm histogram of logit displacement between Figure 9. (cid:96)2 図 9 間の対数変位の標準ヒストグラム。 0.82
two random ensembles. ランダムアンサンブルが2つ 0.56
The bin size is 0.5. ビンサイズは0.5。 0.76
Two random ensembles are different types (heterogeneous, ResNet-50 vs ResNet-18). 2つのランダムアンサンブルは異なるタイプ(異種、ResNet-50対ResNet-18)である。 0.58
∆µ = µ1 − µ2 (cid:54)= 0, Σ(cid:48) = Σ1 + Σ2. ∆µ = µ1 − µ2 (cid:54)= 0, Σ(cid:48) = Σ1 + Σ2. 0.43
on many more images and the conclusion holds well. さらに多くの画像で、結論は良好である。 0.70
If we move to ensembles of m models each, the feature difference follows another normal distribution whose co-variance ma- それぞれ m モデルのアンサンブルに移動すると、その特徴差は共分散 ma を持つ別の正規分布に従う。 0.75
trix is scaled by a factor of m, i.e. ∆z(ens) ∼ N(cid:0)0, 2 m Σ(cid:1). トリクスは m の因子、すなわち、n(cid:0)0, 2 m Σ(cid:1) によってスケールされる。 0.70
13 We demonstrate that the rest of histograms are indeed consistent with the estimated PMF of (cid:107)∆z(ens)(cid:107)2 (dashed lines in Figure 11). 13 残りのヒストグラムは、(cid:107)シュズ(ens)(cid:107)2(図11の破線)の推定PMFと実際に一致していることを示す。 0.80
1020502 norm of output logit displacement0.00.20. 40.6pmf of ||||,(0,0)pmf of ||||,(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.1020502 norm of output logit displacement0.00.20. 40.6pmf of ||||,(0,0)pmf of ||||,(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.1020502 norm of output logit displacement0.00.20. 40.6pmf of ||||,(0,0)pmf of ||||,(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.1020502 norm of output logit displacement0.00.20. 40.6pmf of ||||,(0,0)pmf of ||||,(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.0102030405060702 norm of output logit displacement0.00.20. 40.6pmf of ||||,(,0)pmf of ||||,(,1N(0))||||single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.0102030405060702 norm of output logit displacement0.00.20. 40.6pmf of ||||,(,0)pmf of ||||,(,1N(0))||||single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.0102030405060702 norm of output logit displacement0.00.20. 40.6pmf of ||||,(,0)pmf of ||||,(,1N(0))||||single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.0102030405060702 norm of output logit displacement0.00.20. 40.6pmf of ||||,(,0)pmf of ||||,(,1N(0))||||single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens. 1020502 norm of output logit displacement0.00.20. 40.6pmf of ||||,(0,0)pmf of ||||,(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.1020502 norm of output logit displacement0.00.20. 40.6pmf of ||||,(0,0)pmf of ||||,(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.1020502 norm of output logit displacement0.00.20. 40.6pmf of ||||,(0,0)pmf of ||||,(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.1020502 norm of output logit displacement0.00.20. 40.6pmf of ||||,(0,0)pmf of ||||,(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.0102030405060702 norm of output logit displacement0.00.20. 40.6pmf of ||||,(,0)pmf of ||||,(,1N(0))||||single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.0102030405060702 norm of output logit displacement0.00.20. 40.6pmf of ||||,(,0)pmf of ||||,(,1N(0))||||single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.0102030405060702 norm of output logit displacement0.00.20. 40.6pmf of ||||,(,0)pmf of ||||,(,1N(0))||||single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.0102030405060702 norm of output logit displacement0.00.20. 40.6pmf of ||||,(,0)pmf of ||||,(,1N(0))||||single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens. 0.25
英語(論文から抽出)日本語訳スコア
(a) Two single models: Test (a)2つの単一モデル:テスト 0.91
samples flip even if not close to the boundary (long arrows). サンプルは境界(長い矢印)に近づかなくても反転する。 0.70
(b) Two ensembles of 3 models each (3×): Fewer samples that are far from the boundary flip (b)各3モデル(3×)の2つのアンサンブル(境界フリップから遠くないサンプル) 0.76
(shorter arrows). (c) Embeddings of ensembles and their members: Individual models’ embeddings (lighter (矢が短い)。 (c)アンサンブルとそのメンバーの埋め込み:個別モデルの埋め込み(より軽い) 0.73
circles) center around the mode. 円) モードを中心に配置する。 0.70
(d) PMF of feature difference (d)特徴差のPMF 0.37
∆z. Figure 10. Visualization of a 3-class 2-dimensional example. だ。 図10。 3クラス2次元例の可視化 0.53
(a-c): 2D feature embedding of two single models or ensembles. (a-c):2つの単一モデルまたはアンサンブルの2次元特徴埋め込み。 0.68
L, I, and • refer to the ground-truth classes for each sample. L, I, および • は各サンプルの基幹クラスを参照。 0.63
Red and green data points refer to old and new model’s embeddings. 赤と緑のデータポイントは、古い新しいモデルの埋め込みを指す。 0.75
Magenta arrow, blue arrow, gray arrow link negative flip, positive flip, and consistent (either both correct or both wrong) prediction pairs. マゼンタ矢印、青い矢印、灰色の矢印リンクの負のフリップ、正のフリップ、一貫した(正しいか間違ったかのどちらか)予測ペア。 0.60
All dots with black borders are depicting the same image. 黒い縁の点はすべて同じ像を描いている。 0.72
(d): Estimated probability mass function (PMF) of feature difference between two single models or ensembles. (d):2つの単一モデルまたはアンサンブル間の特徴差の推定確率質量関数(PMF)。 0.87
The x- and y-axes denote the 2D feature difference. x軸とy軸は2次元特徴差を表す。 0.69
The heatmap value denotes the estimated probability density. ヒートマップ値は推定確率密度を表す。 0.77
The ensemble’s co-variance is significantly smaller than the single model. アンサンブルの共分散は単一モデルよりもかなり小さい。 0.59
The figure is best viewed in color. 図は色が一番よく見えます。 0.76
(a) Input image: val 00009585. (a)入力画像:val 00009585。 0.71
(b) Input image: val 00015098. (b)入力画像: val 00015098。 0.72
(c) Input image: val 00034619. (c)入力画像: val 00034619。 0.74
(d) Input image: val 00014560. (d)入力画像: val 00014560。 0.34
m (Σ1 + Σ2)(cid:1). m (Σ1 + Σ2) (cid:1)。 0.78
Consistency between (cid:96)2 norm histogram of feature difference between two random ensembles. 一貫性 (cid:96)2 ランダムアンサンブル間の特徴差の標準ヒストグラム。 0.59
Note that the bin size is 0.1. ビンサイズは0.1である。 0.72
Two random Figure 11. 2つのランダムな図 11 0.79
ensembles are of the same type (ResNet-18 vs. ResNet-18). アンサンブルは同じタイプである(ResNet-18 vs. ResNet-18)。 0.71
∆µ = µ1 − µ2 (cid:54)= 0, Σ(cid:48) = Σ1 + Σ2. ∆µ = µ1 − µ2 (cid:54)= 0, Σ(cid:48) = Σ1 + Σ2. 0.43
We also plot the simulated probability mass function (PMF): the solid line for the norm of a simulated normal distribution N (∆µ, (Σ1 + Σ2)) whose parameters また、シミュレーション確率質量関数 (pmf) をプロットし、パラメータを持つ正規分布 n のノルムに対するソリッドラインをプロットする(σ1 + σ2)。 0.74
are estimated from all available single models; the dashed lines for extrapolated distribution N(cid:0)∆µ, 1 すべての利用可能な単一モデルから推定される;外挿された分布 N(cid:0) =μ, 1 0.80
the ensembles’ histograms and PMFs supports our hypotheses in main text. アンサンブルのヒストグラムとPMFは、私たちの仮説をメインテキストでサポートしています。 0.48
14 4202464202class 0class 1class 2old embed.new embed.old embed.new embed.4202464202clas s 0class 1class 2old embed.new embed.old embed.new embed.10123457654321 class 2old ens. embed.new ens. embed.old indiv. 14 4202464202class 0class 2class embed.new Embed.new Embed.4202464202clas s 0class Embed.new Embed.new Embed.old Embed.new Embed.10123457654321 class ens.new Embed.old indiv.
訳抜け防止モード: 14 4202464202class 0class 2oldembed.newembed.o ldembed.newembed.420 24202class 0class 2oldembed.new embedded.old embedded.new embedded.10123457654 321class 2old ens .embed.new ens .embed.old indiv .
0.36
embed.new indiv. 新しいindivを埋めて 0.40
embed.old ens. embed.new ens. embed.old indiv. embedded.old ens.embed.new ens.embed.old indiv. 0.35
embed.new indiv. 新しいindivを埋めて 0.40
embed.505505single models505505ensemble models0.000.020.040. 060.080.100.1225102 norm of output feature difference012345pmf of ||Z||,Z(0,0)pmf of ||Z||,Z(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.25102 norm of output feature difference012345pmf of ||Z||,Z(0,0)pmf of ||Z||,Z(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.25102 norm of output feature difference012345pmf of ||Z||,Z(0,0)pmf of ||Z||,Z(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.25102 norm of output feature difference012345pmf of ||Z||,Z(0,0)pmf of ||Z||,Z(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens. embed.505505single models505505ensemble models0.000.020.040. 060.080.100.1225102 norm of output feature difference012345pmf of ||Z||,Z(0,0)pmf of ||Z||,Z(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.25102 norm of output feature difference012345pmf of ||Z||,Z(0,0)pmf of ||Z||,Z(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.25102 norm of output feature difference012345pmf of ||Z||,Z(0,0)pmf of ||Z||,Z(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.25102 norm of output feature difference012345pmf of ||Z||,Z(0,0)pmf of ||Z||,Z(0,1N0)single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens.single2x Ens.4x Ens.8x Ens.16x Ens.32x Ens. 0.23
                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。