Fugu-MT 論文翻訳(概要): Reducing Model Jitter: Stable Re-training of Semantic Parsers in Production Environments

論文の概要: Reducing Model Jitter: Stable Re-training of Semantic Parsers in Production Environments

arxiv url: http://arxiv.org/abs/2204.04735v1
Date: Sun, 10 Apr 2022 17:57:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-13 09:41:01.314882
Title: Reducing Model Jitter: Stable Re-training of Semantic Parsers in Production Environments
Title（参考訳）: reduce model jitter: 運用環境におけるセマンティックパーサの安定した再トレーニング
Authors: Christopher Hidey, Fei Liu, Rahul Goel
Abstract要約: 現代のディープラーニングシステムのリトレーニングは、同じデータとハイパーパラメータを使ってトレーニングした場合でも、モデルパフォーマンスのバリエーションにつながる可能性がある。本研究では, アンサンブルや蒸留など, 様々なジッタ低減技術の有効性を実証する。本研究では, セマンティック・パーシングシステムにおいて, 資源使用量の増加が緩やかに増加し, ジッタ低減の点において, 共蒸留がスイートスポットとなることを示す。
参考スコア（独自算出の注目度）: 14.829119556960066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retraining modern deep learning systems can lead to variations in model performance even when trained using the same data and hyper-parameters by simply using different random seeds. We call this phenomenon model jitter. This issue is often exacerbated in production settings, where models are retrained on noisy data. In this work we tackle the problem of stable retraining with a focus on conversational semantic parsers. We first quantify the model jitter problem by introducing the model agreement metric and showing the variation with dataset noise and model sizes. We then demonstrate the effectiveness of various jitter reduction techniques such as ensembling and distillation. Lastly, we discuss practical trade-offs between such techniques and show that co-distillation provides a sweet spot in terms of jitter reduction for semantic parsing systems with only a modest increase in resource usage.
Abstract（参考訳）: 現代のディープラーニングシステムのトレーニングは、異なるランダムシードを使用することで、同じデータとハイパーパラメータを使用してトレーニングした場合でも、モデルパフォーマンスのばらつきにつながる可能性がある。この現象をモデルジッタと呼びますこの問題は、しばしばプロダクション環境で悪化し、ノイズの多いデータでモデルが再トレーニングされる。本研究は,対話型セマンティックパーサに着目した安定的再学習の問題に取り組む。まず,モデル合意メトリックを導入し,データセットのノイズとモデルサイズによる変動を示すことで,モデルジッタ問題を定量化する。次に, センシングや蒸留などの様々なジッタ低減技術の有効性を示す。最後に,このような技術間の実践的トレードオフについて議論し,資源利用のわずかな増加だけで,意味解析システムにおけるジッタ削減の観点から,共蒸留がスイートスポットであることを示す。

関連論文リスト

Diffusion models under low-noise regime [3.729242965449096]
拡散モデルは, 汚損レベルが小さい場合に有効であることを示す。トレーニングセットのサイズ,データ幾何,および客観選択形状のモデル化方法の定量化を行う。この研究は、実用的なアプリケーションにおける生成モデルの信頼性に対する理解のギャップに対処し始めます。
論文参考訳（メタデータ） (2025-06-09T15:07:16Z)
Time Series Similarity Score Functions to Monitor and Interact with the Training and Denoising Process of a Time Series Diffusion Model applied to a Human Activity Recognition Dataset based on IMUs [0.0]
拡散確率モデルは合成センサー信号を生成できるトレーニングプロセスは、前処理で付加された雑音と拡散モデルで予測された雑音との差を測定する損失関数によって制御される。我々は、複数の類似度指標を調査し、トレーニングと合成プロセスを監視して、この問題を克服するために既存のメトリクスを適用します。
論文参考訳（メタデータ） (2025-05-20T06:38:17Z)
Joint Diffusion models in Continual Learning [4.013156524547073]
共同拡散モデルに基づく生成的リハーサルを用いた連続学習法であるJDCLを紹介する。生成的再生に基づく連続学習手法は、生成的モデルからサンプリングされた新しいデータとリハーサルデータを組み合わせたモデルの再学習によってこの問題を緩和しようとする。このような共有パラメトリゼーションと知識蒸留技術を組み合わせることで、破滅的な忘れをせずに新しいタスクに安定した適応ができることを示す。
論文参考訳（メタデータ） (2024-11-12T22:35:44Z)
Self-calibration for Language Model Quantization and Pruning [38.00221764773372]
量子化法とプルーニング法は、ラベルなしサンプルの小さなセットであるキャリブレーションデータを必要とする。本稿では,自己校正を解法として提案する。われわれの手法は外部データを必要としないが、代わりにモデル自体を利用して合成キャリブレーションデータを生成する。
論文参考訳（メタデータ） (2024-10-22T16:50:00Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文参考訳（メタデータ） (2024-02-19T02:08:09Z)
One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。 OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文参考訳（メタデータ） (2023-11-27T12:02:42Z)
ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文参考訳（メタデータ） (2023-07-15T04:48:35Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文参考訳（メタデータ） (2022-12-19T12:44:25Z)
Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文参考訳（メタデータ） (2022-02-28T18:50:10Z)
Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文参考訳（メタデータ） (2021-06-04T18:03:31Z)
Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文参考訳（メタデータ） (2021-05-27T09:14:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。