論文の概要: Reducing Model Jitter: Stable Re-training of Semantic Parsers in
Production Environments
- arxiv url: http://arxiv.org/abs/2204.04735v1
- Date: Sun, 10 Apr 2022 17:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 09:41:01.314882
- Title: Reducing Model Jitter: Stable Re-training of Semantic Parsers in
Production Environments
- Title(参考訳): reduce model jitter: 運用環境におけるセマンティックパーサの安定した再トレーニング
- Authors: Christopher Hidey, Fei Liu, Rahul Goel
- Abstract要約: 現代のディープラーニングシステムのリトレーニングは、同じデータとハイパーパラメータを使ってトレーニングした場合でも、モデルパフォーマンスのバリエーションにつながる可能性がある。
本研究では, アンサンブルや蒸留など, 様々なジッタ低減技術の有効性を実証する。
本研究では, セマンティック・パーシングシステムにおいて, 資源使用量の増加が緩やかに増加し, ジッタ低減の点において, 共蒸留がスイートスポットとなることを示す。
- 参考スコア(独自算出の注目度): 14.829119556960066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retraining modern deep learning systems can lead to variations in model
performance even when trained using the same data and hyper-parameters by
simply using different random seeds. We call this phenomenon model jitter. This
issue is often exacerbated in production settings, where models are retrained
on noisy data. In this work we tackle the problem of stable retraining with a
focus on conversational semantic parsers. We first quantify the model jitter
problem by introducing the model agreement metric and showing the variation
with dataset noise and model sizes. We then demonstrate the effectiveness of
various jitter reduction techniques such as ensembling and distillation.
Lastly, we discuss practical trade-offs between such techniques and show that
co-distillation provides a sweet spot in terms of jitter reduction for semantic
parsing systems with only a modest increase in resource usage.
- Abstract(参考訳): 現代のディープラーニングシステムのトレーニングは、異なるランダムシードを使用することで、同じデータとハイパーパラメータを使用してトレーニングした場合でも、モデルパフォーマンスのばらつきにつながる可能性がある。
この現象をモデルジッタと呼びます
この問題は、しばしばプロダクション環境で悪化し、ノイズの多いデータでモデルが再トレーニングされる。
本研究は,対話型セマンティックパーサに着目した安定的再学習の問題に取り組む。
まず,モデル合意メトリックを導入し,データセットのノイズとモデルサイズによる変動を示すことで,モデルジッタ問題を定量化する。
次に, センシングや蒸留などの様々なジッタ低減技術の有効性を示す。
最後に,このような技術間の実践的トレードオフについて議論し,資源利用のわずかな増加だけで,意味解析システムにおけるジッタ削減の観点から,共蒸留がスイートスポットであることを示す。
関連論文リスト
- Joint Diffusion models in Continual Learning [4.013156524547073]
共同拡散モデルに基づく生成的リハーサルを用いた連続学習法であるJDCLを紹介する。
生成的再生に基づく連続学習手法は、生成的モデルからサンプリングされた新しいデータとリハーサルデータを組み合わせたモデルの再学習によってこの問題を緩和しようとする。
このような共有パラメトリゼーションと知識蒸留技術を組み合わせることで、破滅的な忘れをせずに新しいタスクに安定した適応ができることを示す。
論文 参考訳(メタデータ) (2024-11-12T22:35:44Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。