論文の概要: Improving Prediction Backward-Compatiblility in NLP Model Upgrade with
Gated Fusion
- arxiv url: http://arxiv.org/abs/2302.02080v1
- Date: Sat, 4 Feb 2023 03:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:23:15.639153
- Title: Improving Prediction Backward-Compatiblility in NLP Model Upgrade with
Gated Fusion
- Title(参考訳): Gated FusionによるNLPモデルの後方互換性向上
- Authors: Yi-An Lai, Elman Mansimov, Yuqing Xie, Yi Zhang
- Abstract要約: ニューラルモデルを新しいバージョンにアップグレードする場合、レガシバージョンで遭遇しなかった新しいエラーを、レグレッションエラー(regress error)として導入することができる。
従来のモデルと新しいモデルの間で予測を混合する学習による後方互換性を促進する新しい手法であるGated Fusionを提案する。
- 参考スコア(独自算出の注目度): 8.173078054056337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When upgrading neural models to a newer version, new errors that were not
encountered in the legacy version can be introduced, known as regression
errors. This inconsistent behavior during model upgrade often outweighs the
benefits of accuracy gain and hinders the adoption of new models. To mitigate
regression errors from model upgrade, distillation and ensemble have proven to
be viable solutions without significant compromise in performance. Despite the
progress, these approaches attained an incremental reduction in regression
which is still far from achieving backward-compatible model upgrade. In this
work, we propose a novel method, Gated Fusion, that promotes backward
compatibility via learning to mix predictions between old and new models.
Empirical results on two distinct model upgrade scenarios show that our method
reduces the number of regression errors by 62% on average, outperforming the
strongest baseline by an average of 25%.
- Abstract(参考訳): ニューラルモデルを新しいバージョンにアップグレードする場合、レガシバージョンで遭遇しなかった新しいエラーを、レグレッションエラー(regress error)として導入することができる。
モデルアップグレード中のこの一貫性のない振る舞いは、しばしば精度向上の利点を上回り、新しいモデルの採用を妨げる。
モデルアップグレードからの回帰誤差を軽減するため、蒸留とアンサンブルは性能に大きな妥協なしに実現可能であることが証明された。
進歩にもかかわらず、これらのアプローチは回帰の漸進的な削減を達成し、後方互換性のあるモデルアップグレードには程遠い。
本研究では,古いモデルと新しいモデルの間で予測を混合する学習を通じて,後方互換性を促進する新しい手法gated fusionを提案する。
2つの異なるモデルアップグレードシナリオにおける実験結果から,提案手法は回帰誤差を平均62%削減し,最強のベースラインを平均25%上回る結果となった。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Model Merging by Uncertainty-Based Gradient Matching [70.54580972266096]
ミスマッチを減らすことで性能を改善するための不確実性に基づく新しいスキームを提案する。
我々の新しい手法は、大きな言語モデルと視覚変換器に一貫した改善をもたらす。
論文 参考訳(メタデータ) (2023-10-19T15:02:45Z) - MixBCT: Towards Self-Adapting Backward-Compatible Training [66.52766344751635]
そこで本研究では,単純かつ高効率な後方互換性学習法であるMixBCTを提案する。
大規模顔認識データセットMS1Mv3とIJB-Cについて実験を行った。
論文 参考訳(メタデータ) (2023-08-14T05:55:38Z) - Measuring and Reducing Model Update Regression in Structured Prediction
for NLP [31.86240946966003]
後方互換性は、新しいモデルが前者によって正しく処理されたケースに回帰しないことを要求する。
本研究は、構造化予測タスクにおける更新回帰をモデル化する。
本稿では,構造化出力の特性を考慮し,単純かつ効果的なバックワード・コングルエント・リグレード(BCR)を提案する。
論文 参考訳(メタデータ) (2022-02-07T07:04:54Z) - Hot-Refresh Model Upgrades with Regression-Alleviating Compatible
Training in Image Retrieval [34.84329831602699]
コールド・リフレッシュモデルのアップグレードは、ギャラリー全体のバックフィルが完了した後のみ、新しいモデルをデプロイできる。
対照的に、ホットリフレッシュモデルのアップグレードでは、新しいモデルを即座にデプロイし、その後、ギャラリーをオンザフライでバックフィルすることで、検索精度を徐々に改善する。
論文 参考訳(メタデータ) (2022-01-24T14:59:12Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - Positive-Congruent Training: Towards Regression-Free Model Updates [87.25247195148187]
画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。
そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
論文 参考訳(メタデータ) (2020-11-18T09:00:44Z) - Quantile Regularization: Towards Implicit Calibration of Regression
Models [30.872605139672086]
2つのCDF間の累積KL分散として定義される新しい量子正規化器に基づく回帰モデルの校正法を提案する。
提案手法は,Dropout VI や Deep Ensembles といった手法を用いて学習した回帰モデルのキャリブレーションを大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-02-28T16:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。