論文の概要: Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent
Variable Inference for Text Generation
- arxiv url: http://arxiv.org/abs/2207.06130v1
- Date: Wed, 13 Jul 2022 11:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 21:39:07.573542
- Title: Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent
Variable Inference for Text Generation
- Title(参考訳): もっと深く融合しろ!
テキスト生成のための階層型潜在変数推論を用いた変分トランス
- Authors: Jinyi Hu, Xiaoyuan Yi, Wenhao Li, Maosong Sun, Xing Xie
- Abstract要約: KLの消滅問題を克服する新しい変分変換器フレームワークを提案する。
提案手法は,遅延変数を絡み合わせることで,層内における後部情報減少を回避することができることを示す。
- 参考スコア(独自算出の注目度): 85.5379146125199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past several years have witnessed Variational Auto-Encoder's superiority
in various text generation tasks. However, due to the sequential nature of the
text, auto-regressive decoders tend to ignore latent variables and then reduce
to simple language models, known as the KL vanishing problem, which would
further deteriorate when VAE is combined with Transformer-based structures. To
ameliorate this problem, we propose DELLA, a novel variational Transformer
framework. DELLA learns a series of layer-wise latent variables with each
inferred from those of lower layers and tightly coupled with the hidden states
by low-rank tensor product. In this way, DELLA forces these posterior latent
variables to be fused deeply with the whole computation path and hence
incorporate more information. We theoretically demonstrate that our method can
be regarded as entangling latent variables to avoid posterior information
decrease through layers, enabling DELLA to get higher non-zero KL values even
without any annealing or thresholding tricks. Experiments on four unconditional
and three conditional generation tasks show that DELLA could better alleviate
KL vanishing and improve both quality and diversity compared to several strong
baselines.
- Abstract(参考訳): 過去数年間、様々なテキスト生成タスクにおける変分オートエンコーダの優位性を目撃してきた。
しかし、テキストのシーケンシャルな性質のため、自動回帰デコーダは潜伏変数を無視してKL消滅問題と呼ばれる単純な言語モデルに還元する傾向にあり、VAEとTransformerベースの構造を組み合わせるとさらに劣化する。
この問題を改善するために,新しい変分トランスフォーマーフレームワーク della を提案する。
DELLAは、下位層の変数からそれぞれを推論し、低ランクテンソル積によって隠れた状態と密結合した一連の層ワイド潜伏変数を学習する。
このようにして、DELLAはこれらの後続潜伏変数を計算経路全体と深く融合させ、より多くの情報を組み込む。
理論的には,本手法は,アニーリングやしきい値設定を行なわずに,より高い非ゼロkl値を得ることができる。
4つの無条件および3つの条件生成タスクの実験により、dellaはいくつかの強力なベースラインと比較して、klの消失を緩和し、品質と多様性の両方を改善した。
関連論文リスト
- Discouraging posterior collapse in hierarchical Variational Autoencoders
using context [19.47169312443202]
トップダウン階層のVAEは、深い潜伏構造を効果的に学習し、後部崩壊のような問題を回避できるという意見が一致している。
ここでは,必ずしもそうではないことを示すとともに,後方崩壊の問題も残る。
具体的には、離散コサイン変換を用いて最後の潜伏変数を得る。
論文 参考訳(メタデータ) (2023-02-20T13:44:47Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Interpretable Latent Variables in Deep State Space Models [4.884336328409872]
我々は、時系列データを予測するために、リカレントニューラルネットワークと状態空間フレームワークを組み合わせたディープステートスペースモデル(DSSM)の新バージョンを導入する。
このモデルは、観測された系列を、時間を通して非線形に進化する潜在変数の関数として推定する。
論文 参考訳(メタデータ) (2022-03-03T23:10:58Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。