論文の概要: Tailoring Language Generation Models under Total Variation Distance
- arxiv url: http://arxiv.org/abs/2302.13344v1
- Date: Sun, 26 Feb 2023 16:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:34:33.483003
- Title: Tailoring Language Generation Models under Total Variation Distance
- Title(参考訳): 総変分距離を考慮した台詞生成モデル
- Authors: Haozhe Ji, Pei Ke, Zhipeng Hu, Rongsheng Zhang, Minlie Huang
- Abstract要約: ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
- 参考スコア(独自算出の注目度): 55.89964205594829
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The standard paradigm of neural language generation adopts maximum likelihood
estimation (MLE) as the optimizing method. From a distributional view, MLE in
fact minimizes the Kullback-Leibler divergence (KLD) between the distribution
of the real data and that of the model. However, this approach forces the model
to distribute non-zero (sometimes large) probability mass to all training
samples regardless of their quality. Moreover, in the attempt to cover the
low-probability regions in the data distribution, the model systematically
overestimates the probability of corrupted text sequences, which we conjecture
is one of the main reasons for text degeneration during autoregressive
decoding. To remedy this problem, we leverage the total variation distance
(TVD) with its robustness to outliers, and develop practical bounds to apply it
to language generation. Then, we introduce the TaiLr objective that balances
the tradeoff of estimating TVD. Intuitively, TaiLr downweights real data
samples that have low model probabilities with tunable penalization intensity.
Experimental results show that our method alleviates the overestimation of
degenerated sequences without sacrificing diversity and improves generation
quality on a wide range of text generation tasks.
- Abstract(参考訳): ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
分布的視点から見ると、MLEは実際に実際のデータの分布とモデルの分布の間のクルバック・リーブラー分岐(KLD)を最小化する。
しかし、このアプローチはモデルに非ゼロ(時には大きな)確率質量を、その品質に関係なく全てのトレーニングサンプルに分配させる。
さらに、データ分散における低確率領域をカバーしようとする試みにおいて、本モデルは、自己回帰復号時のテキスト劣化の主な原因の一つとして、破損したテキストシーケンスの確率を体系的に過大評価する。
この問題を解決するために, 総変分距離(TVD)を外乱に対する頑健性に活用し, 言語生成に応用するための実践的境界を開発する。
次に,TVD推定のトレードオフをバランスさせるTaiLr の目標を提案する。
直感的には、tailrは、調整可能なペナライゼーション強度を持つ低モデル確率の実際のデータサンプルをダウンウェイトする。
実験により, 多様性を犠牲にすることなく, 生成配列の過大評価を緩和し, テキスト生成タスクにおける生成品質の向上を図った。
関連論文リスト
- Robust training of implicit generative models for multivariate and heavy-tailed distributions with an invariant statistical loss [0.4249842620609682]
我々は、引用2024トレーニングで導入されたISL(textitinvariant statistics loss)法に基づいて構築する。
重み付きおよび多変量データ分散を扱うように拡張する。
ジェネレーティブ・ジェネレーティブ・モデリングにおけるその性能を評価し、ジェネレーティブ・ディバイサル・ネットワーク(GAN)の事前学習技術としての可能性を探る。
論文 参考訳(メタデータ) (2024-10-29T10:27:50Z) - Diffusion models for probabilistic programming [56.47577824219207]
拡散モデル変分推論(DMVI)は確率型プログラミング言語(PPL)における自動近似推論手法である
DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。
論文 参考訳(メタデータ) (2023-11-01T12:17:05Z) - Beyond MLE: Convex Learning for Text Generation [34.99340118597274]
我々は、機械翻訳のようなクローズドエンドテキスト生成タスクにおいて、最大推定(MLE)が必ずしも必要であり、最適であるとは限らないと論じる。
本研究では,データ分布全体を推定することなく,テキスト生成モデルを高い確率出力に集中させることができる,凸関数に基づく新たな学習目標のクラスを提案する。
論文 参考訳(メタデータ) (2023-10-26T08:08:43Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Learning Multivariate CDFs and Copulas using Tensor Factorization [39.24470798045442]
データの多変量分布を学習することは、統計学と機械学習における中核的な課題である。
本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにすることを目的とする。
混合確率変数の合同CDFの任意のグリッドサンプリング版は、単純ベイズモデルとして普遍表現を許容することを示す。
提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。
論文 参考訳(メタデータ) (2022-10-13T16:18:46Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。