論文の概要: Positive-Congruent Training: Towards Regression-Free Model Updates
- arxiv url: http://arxiv.org/abs/2011.09161v3
- Date: Mon, 17 May 2021 20:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:36:40.174166
- Title: Positive-Congruent Training: Towards Regression-Free Model Updates
- Title(参考訳): ポジティブ・コングルーエント・トレーニング:レグレッションフリー・モデル・アップデートに向けて
- Authors: Sijie Yan, Yuanjun Xiong, Kaustav Kundu, Shuo Yang, Siqi Deng, Meng
Wang, Wei Xia, Stefano Soatto
- Abstract要約: 画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。
そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
- 参考スコア(独自算出の注目度): 87.25247195148187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reducing inconsistencies in the behavior of different versions of an AI
system can be as important in practice as reducing its overall error. In image
classification, sample-wise inconsistencies appear as "negative flips": A new
model incorrectly predicts the output for a test sample that was correctly
classified by the old (reference) model. Positive-congruent (PC) training aims
at reducing error rate while at the same time reducing negative flips, thus
maximizing congruency with the reference model only on positive predictions,
unlike model distillation. We propose a simple approach for PC training, Focal
Distillation, which enforces congruence with the reference model by giving more
weights to samples that were correctly classified. We also found that, if the
reference model itself can be chosen as an ensemble of multiple deep neural
networks, negative flips can be further reduced without affecting the new
model's accuracy.
- Abstract(参考訳): AIシステムの異なるバージョンの振る舞いにおける矛盾を減らすことは、全体的なエラーを減らすのと同じくらい、現実的に重要である。
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測します。
ポジティブ・コングルエント(PC)トレーニングは, 正のフリップを低減しながら誤り率の低減を目標とし, モデル蒸留とは異なり, 正の予測のみに基づいて参照モデルとの一致を最大化する。
そこで本研究では,PC トレーニングにおける簡単なアプローチである Focal Distillation を提案する。
また、参照モデル自体が複数のディープニューラルネットワークのアンサンブルとして選択できる場合、新しいモデルの精度に影響を与えることなく、負のフリップをさらに削減できることがわかった。
関連論文リスト
- Analysis of Interpolating Regression Models and the Double Descent
Phenomenon [3.883460584034765]
ノイズの多いトレーニングデータを補間するモデルは、一般化に乏しいと一般的に推測されている。
得られた最良のモデルは過度にパラメータ化され、テストエラーはモデル順序が増加するにつれて二重降下挙動を示す。
回帰行列の最小特異値の振舞いに基づいて、テスト誤差のピーク位置と二重降下形状をモデル順序の関数として説明する。
論文 参考訳(メタデータ) (2023-04-17T09:44:33Z) - Backward Compatibility During Data Updates by Weight Interpolation [17.502410289568587]
データ更新時の回帰問題について検討し、後方対応型重み補間法(BCWI)を提案する。
BCWIは、新しいモデルの精度の向上を犠牲にすることなく、負のフリップを減らす。
また,複数の新モデルの重み付けにおける重み付けと平均化による負のフリップの低減についても検討する。
論文 参考訳(メタデータ) (2023-01-25T12:23:10Z) - ELODI: Ensemble Logit Difference Inhibition for Positive-Congruent Training [110.52785254565518]
負のフリップ率(NFR)を減少させる既存の方法は、新しいモデルに古いモデルを模倣させたり、アンサンブルを使用したりすることで、全体的な精度を犠牲にしている。
我々は、NFRの低減におけるアンサンブルの役割を分析し、通常決定境界に近くない負のフリップを取り除くことを観察する。
本稿では,誤り率とNFRの両方でパラゴン性能を実現する分類システムを訓練するためのELODI(Ensemble Logit Difference Inhibition)を提案する。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。