論文の概要: Generative Text Modeling through Short Run Inference
- arxiv url: http://arxiv.org/abs/2106.02513v2
- Date: Tue, 8 Jun 2021 09:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 13:58:45.284859
- Title: Generative Text Modeling through Short Run Inference
- Title(参考訳): ショートラン推論による生成テキストモデリング
- Authors: Bo Pang, Erik Nijkamp, Tian Han, Ying Nian Wu
- Abstract要約: 本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
- 参考スコア(独自算出の注目度): 47.73892773331617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent variable models for text, when trained successfully, accurately model
the data distribution and capture global semantic and syntactic features of
sentences. The prominent approach to train such models is variational
autoencoders (VAE). It is nevertheless challenging to train and often results
in a trivial local optimum where the latent variable is ignored and its
posterior collapses into the prior, an issue known as posterior collapse.
Various techniques have been proposed to mitigate this issue. Most of them
focus on improving the inference model to yield latent codes of higher quality.
The present work proposes a short run dynamics for inference. It is initialized
from the prior distribution of the latent variable and then runs a small number
(e.g., 20) of Langevin dynamics steps guided by its posterior distribution. The
major advantage of our method is that it does not require a separate inference
model or assume simple geometry of the posterior distribution, thus rendering
an automatic, natural and flexible inference engine. We show that the models
trained with short run dynamics more accurately model the data, compared to
strong language model and VAE baselines, and exhibit no sign of posterior
collapse. Analyses of the latent space show that interpolation in the latent
space is able to generate coherent sentences with smooth transition and
demonstrate improved classification over strong baselines with latent features
from unsupervised pretraining. These results together expose a well-structured
latent space of our generative model.
- Abstract(参考訳): テキストの潜在変数モデルは、トレーニングが成功すれば、データ分散を正確にモデル化し、文のグローバルな意味的特徴と構文的特徴をキャプチャする。
そのようなモデルを訓練するための顕著なアプローチは変分オートエンコーダ(vae)である。
それにもかかわらず、訓練は困難であり、しばしば自明な局所的な最適化をもたらすが、潜伏変数は無視され、後続変数が前の状態に崩壊する(後続崩壊と呼ばれる)。
この問題を緩和する様々な手法が提案されている。
その多くは、高い品質の潜在コードを生成するための推論モデルの改善に重点を置いている。
本研究は,推論のための短時間実行ダイナミクスを提案する。
後続変数の事前分布から初期化され、後続分布によって導かれるランゲヴィン力学ステップの少数の数(例:20)を実行する。
提案手法の主な利点は, 独立な推論モデルや後続分布の単純な幾何学を前提とせず, 自動的, 自然的, 柔軟な推論エンジンを設計することである。
短ランダイナミクスで訓練されたモデルは,強固な言語モデルやvaeベースラインと比較して,より正確なデータモデル化が可能であり,後方崩壊の兆候はみられなかった。
潜在空間の解析により、潜在空間の補間は滑らかな遷移を伴うコヒーレント文を生成することができ、教師なし事前学習による潜在特徴を持つ強いベースライン上での分類の改善が示されている。
これらの結果は共に、我々の生成モデルのよく構造化された潜在空間を露呈する。
関連論文リスト
- Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。
我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文 参考訳(メタデータ) (2024-03-13T20:16:21Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [60.98692028151328]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,この学習規則が将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
我々は拡散モデルに一般結果を特化し、自己消費ループ内での最適な早期停止の有効性などの微妙な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion
Model [39.43807901918387]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Learning Sparse Latent Representations for Generator Model [7.467412443287767]
そこで本研究では,ジェネレータモデルの潜在空間に空間空間を強制する教師なし学習手法を提案する。
我々のモデルは1つのトップダウンジェネレータネットワークから成り、潜在変数を観測データにマッピングする。
論文 参考訳(メタデータ) (2022-09-20T18:58:24Z) - A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。
本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:13:11Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。