論文の概要: Generative Text Modeling through Short Run Inference
- arxiv url: http://arxiv.org/abs/2106.02513v2
- Date: Tue, 8 Jun 2021 09:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 13:58:45.284859
- Title: Generative Text Modeling through Short Run Inference
- Title(参考訳): ショートラン推論による生成テキストモデリング
- Authors: Bo Pang, Erik Nijkamp, Tian Han, Ying Nian Wu
- Abstract要約: 本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
- 参考スコア(独自算出の注目度): 47.73892773331617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent variable models for text, when trained successfully, accurately model
the data distribution and capture global semantic and syntactic features of
sentences. The prominent approach to train such models is variational
autoencoders (VAE). It is nevertheless challenging to train and often results
in a trivial local optimum where the latent variable is ignored and its
posterior collapses into the prior, an issue known as posterior collapse.
Various techniques have been proposed to mitigate this issue. Most of them
focus on improving the inference model to yield latent codes of higher quality.
The present work proposes a short run dynamics for inference. It is initialized
from the prior distribution of the latent variable and then runs a small number
(e.g., 20) of Langevin dynamics steps guided by its posterior distribution. The
major advantage of our method is that it does not require a separate inference
model or assume simple geometry of the posterior distribution, thus rendering
an automatic, natural and flexible inference engine. We show that the models
trained with short run dynamics more accurately model the data, compared to
strong language model and VAE baselines, and exhibit no sign of posterior
collapse. Analyses of the latent space show that interpolation in the latent
space is able to generate coherent sentences with smooth transition and
demonstrate improved classification over strong baselines with latent features
from unsupervised pretraining. These results together expose a well-structured
latent space of our generative model.
- Abstract(参考訳): テキストの潜在変数モデルは、トレーニングが成功すれば、データ分散を正確にモデル化し、文のグローバルな意味的特徴と構文的特徴をキャプチャする。
そのようなモデルを訓練するための顕著なアプローチは変分オートエンコーダ(vae)である。
それにもかかわらず、訓練は困難であり、しばしば自明な局所的な最適化をもたらすが、潜伏変数は無視され、後続変数が前の状態に崩壊する(後続崩壊と呼ばれる)。
この問題を緩和する様々な手法が提案されている。
その多くは、高い品質の潜在コードを生成するための推論モデルの改善に重点を置いている。
本研究は,推論のための短時間実行ダイナミクスを提案する。
後続変数の事前分布から初期化され、後続分布によって導かれるランゲヴィン力学ステップの少数の数(例:20)を実行する。
提案手法の主な利点は, 独立な推論モデルや後続分布の単純な幾何学を前提とせず, 自動的, 自然的, 柔軟な推論エンジンを設計することである。
短ランダイナミクスで訓練されたモデルは,強固な言語モデルやvaeベースラインと比較して,より正確なデータモデル化が可能であり,後方崩壊の兆候はみられなかった。
潜在空間の解析により、潜在空間の補間は滑らかな遷移を伴うコヒーレント文を生成することができ、教師なし事前学習による潜在特徴を持つ強いベースライン上での分類の改善が示されている。
これらの結果は共に、我々の生成モデルのよく構造化された潜在空間を露呈する。
関連論文リスト
- SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。
我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文 参考訳(メタデータ) (2024-03-13T20:16:21Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Learning Sparse Latent Representations for Generator Model [7.467412443287767]
そこで本研究では,ジェネレータモデルの潜在空間に空間空間を強制する教師なし学習手法を提案する。
我々のモデルは1つのトップダウンジェネレータネットワークから成り、潜在変数を観測データにマッピングする。
論文 参考訳(メタデータ) (2022-09-20T18:58:24Z) - A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。
本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:13:11Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。