論文の概要: Reducing Model Jitter: Stable Re-training of Semantic Parsers in
Production Environments
- arxiv url: http://arxiv.org/abs/2204.04735v1
- Date: Sun, 10 Apr 2022 17:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 09:41:01.314882
- Title: Reducing Model Jitter: Stable Re-training of Semantic Parsers in
Production Environments
- Title(参考訳): reduce model jitter: 運用環境におけるセマンティックパーサの安定した再トレーニング
- Authors: Christopher Hidey, Fei Liu, Rahul Goel
- Abstract要約: 現代のディープラーニングシステムのリトレーニングは、同じデータとハイパーパラメータを使ってトレーニングした場合でも、モデルパフォーマンスのバリエーションにつながる可能性がある。
本研究では, アンサンブルや蒸留など, 様々なジッタ低減技術の有効性を実証する。
本研究では, セマンティック・パーシングシステムにおいて, 資源使用量の増加が緩やかに増加し, ジッタ低減の点において, 共蒸留がスイートスポットとなることを示す。
- 参考スコア(独自算出の注目度): 14.829119556960066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retraining modern deep learning systems can lead to variations in model
performance even when trained using the same data and hyper-parameters by
simply using different random seeds. We call this phenomenon model jitter. This
issue is often exacerbated in production settings, where models are retrained
on noisy data. In this work we tackle the problem of stable retraining with a
focus on conversational semantic parsers. We first quantify the model jitter
problem by introducing the model agreement metric and showing the variation
with dataset noise and model sizes. We then demonstrate the effectiveness of
various jitter reduction techniques such as ensembling and distillation.
Lastly, we discuss practical trade-offs between such techniques and show that
co-distillation provides a sweet spot in terms of jitter reduction for semantic
parsing systems with only a modest increase in resource usage.
- Abstract(参考訳): 現代のディープラーニングシステムのトレーニングは、異なるランダムシードを使用することで、同じデータとハイパーパラメータを使用してトレーニングした場合でも、モデルパフォーマンスのばらつきにつながる可能性がある。
この現象をモデルジッタと呼びます
この問題は、しばしばプロダクション環境で悪化し、ノイズの多いデータでモデルが再トレーニングされる。
本研究は,対話型セマンティックパーサに着目した安定的再学習の問題に取り組む。
まず,モデル合意メトリックを導入し,データセットのノイズとモデルサイズによる変動を示すことで,モデルジッタ問題を定量化する。
次に, センシングや蒸留などの様々なジッタ低減技術の有効性を示す。
最後に,このような技術間の実践的トレードオフについて議論し,資源利用のわずかな増加だけで,意味解析システムにおけるジッタ削減の観点から,共蒸留がスイートスポットであることを示す。
関連論文リスト
- One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Hierarchical model reduction driven by machine learning for parametric
advection-diffusion-reaction problems in the presence of noisy data [0.0]
本稿では,雑音データの存在下でのパラメトリック楕円問題に対する信頼度低減モデルを生成するための新しい手法を提案する。
ノイズの影響を受ければ,方向方向のHiPODの精度が低下することを示す。
我々は、無関係なノイズからデータ中の関連する物理的特徴をよりよく識別する機械学習フィッティングモデルに取って代わる。
論文 参考訳(メタデータ) (2022-04-01T16:02:05Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z) - Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-09-13T20:37:58Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。