論文の概要: Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation
- arxiv url: http://arxiv.org/abs/2007.06018v1
- Date: Sun, 12 Jul 2020 15:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 05:13:27.771262
- Title: Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation
- Title(参考訳): 密度比推定によるテキスト生成における最大習熟の改善
- Authors: Yuxuan Song, Ning Miao, Hao Zhou, Lantao Yu, Mingxuan Wang, Lei Li
- Abstract要約: 本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
- 参考スコア(独自算出の注目度): 51.091890311312085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auto-regressive sequence generative models trained by Maximum Likelihood
Estimation suffer the exposure bias problem in practical finite sample
scenarios. The crux is that the number of training samples for Maximum
Likelihood Estimation is usually limited and the input data distributions are
different at training and inference stages. Many method shave been proposed to
solve the above problem (Yu et al., 2017; Lu et al., 2018), which relies on
sampling from the non-stationary model distribution and suffers from high
variance or biased estimations. In this paper, we propose{\psi}-MLE, a new
training scheme for auto-regressive sequence generative models, which is
effective and stable when operating at large sample space encountered in text
generation. We derive our algorithm from a new perspective of self-augmentation
and introduce bias correction with density ratio estimation. Extensive
experimental results on synthetic data and real-world text generation tasks
demonstrate that our method stably outperforms Maximum Likelihood Estimation
and other state-of-the-art sequence generative models in terms of both quality
and diversity.
- Abstract(参考訳): 最大確率推定で学習した自己回帰シーケンス生成モデルでは, 実例としての露出バイアス問題が発生する。
cruxは、最大確率推定のためのトレーニングサンプルの数は、通常制限され、入力データ分布は、トレーニングと推論の段階で異なる。
上記の問題を解くために多くの方法が提案され(Yu et al., 2017; Lu et al., 2018)、これは非定常モデル分布からのサンプリングに依存し、高い分散や偏りの推定に悩まされている。
本稿では,テキスト生成時に発生する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニングスキームである{\psi}-MLEを提案する。
我々は自己拡張の新しい視点からアルゴリズムを導出し、密度比推定によるバイアス補正を導入する。
合成データおよび実世界のテキスト生成タスクに関する広範な実験結果から,本手法は品質と多様性の両面において,最大確率推定や他の最先端シーケンス生成モデルよりも安定的に優れることが示された。
関連論文リスト
- Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image
Synthesis [7.234618871984921]
新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。
トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。
これにより、既存のGANやIMLEベースの手法に比べて画質が大幅に向上する。
論文 参考訳(メタデータ) (2024-09-26T00:19:42Z) - Theoretical Guarantees of Data Augmented Last Layer Retraining Methods [5.352699766206809]
最短グループ精度で最先端の性能を達成するために, 線形最終層再訓練戦略が示されている。
本稿では、潜在表現の分布をモデル化する際の最適最悪のグループ精度を示す。
我々は、合成データセットと大規模公開データセットの両方について、その結果を評価し、検証する。
論文 参考訳(メタデータ) (2024-05-09T17:16:54Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Balanced Training of Energy-Based Models with Adaptive Flow Sampling [13.951904929884618]
エネルギーベースモデル (EBMs) は、非正規化ログ密度を直接パラメータ化する汎用密度推定モデルである。
我々は、異なる種類の生成モデル、正規化フロー(NF)を用いたESMのための新しい最大可能性トレーニングアルゴリズムを提案する。
本手法はトレーニング中にNFをEMMに適合させ,NF支援サンプリング方式によりESMの正確な勾配が常に得られるようにする。
論文 参考訳(メタデータ) (2023-06-01T13:58:06Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。