論文の概要: Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent
Variable Inference for Text Generation
- arxiv url: http://arxiv.org/abs/2207.06130v1
- Date: Wed, 13 Jul 2022 11:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 21:39:07.573542
- Title: Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent
Variable Inference for Text Generation
- Title(参考訳): もっと深く融合しろ!
テキスト生成のための階層型潜在変数推論を用いた変分トランス
- Authors: Jinyi Hu, Xiaoyuan Yi, Wenhao Li, Maosong Sun, Xing Xie
- Abstract要約: KLの消滅問題を克服する新しい変分変換器フレームワークを提案する。
提案手法は,遅延変数を絡み合わせることで,層内における後部情報減少を回避することができることを示す。
- 参考スコア(独自算出の注目度): 85.5379146125199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The past several years have witnessed Variational Auto-Encoder's superiority
in various text generation tasks. However, due to the sequential nature of the
text, auto-regressive decoders tend to ignore latent variables and then reduce
to simple language models, known as the KL vanishing problem, which would
further deteriorate when VAE is combined with Transformer-based structures. To
ameliorate this problem, we propose DELLA, a novel variational Transformer
framework. DELLA learns a series of layer-wise latent variables with each
inferred from those of lower layers and tightly coupled with the hidden states
by low-rank tensor product. In this way, DELLA forces these posterior latent
variables to be fused deeply with the whole computation path and hence
incorporate more information. We theoretically demonstrate that our method can
be regarded as entangling latent variables to avoid posterior information
decrease through layers, enabling DELLA to get higher non-zero KL values even
without any annealing or thresholding tricks. Experiments on four unconditional
and three conditional generation tasks show that DELLA could better alleviate
KL vanishing and improve both quality and diversity compared to several strong
baselines.
- Abstract(参考訳): 過去数年間、様々なテキスト生成タスクにおける変分オートエンコーダの優位性を目撃してきた。
しかし、テキストのシーケンシャルな性質のため、自動回帰デコーダは潜伏変数を無視してKL消滅問題と呼ばれる単純な言語モデルに還元する傾向にあり、VAEとTransformerベースの構造を組み合わせるとさらに劣化する。
この問題を改善するために,新しい変分トランスフォーマーフレームワーク della を提案する。
DELLAは、下位層の変数からそれぞれを推論し、低ランクテンソル積によって隠れた状態と密結合した一連の層ワイド潜伏変数を学習する。
このようにして、DELLAはこれらの後続潜伏変数を計算経路全体と深く融合させ、より多くの情報を組み込む。
理論的には,本手法は,アニーリングやしきい値設定を行なわずに,より高い非ゼロkl値を得ることができる。
4つの無条件および3つの条件生成タスクの実験により、dellaはいくつかの強力なベースラインと比較して、klの消失を緩和し、品質と多様性の両方を改善した。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。
本稿では,タスクラテントを明示的に推論する効果について検討する。
タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文 参考訳(メタデータ) (2024-05-29T15:06:10Z) - VOLTA: Improving Generative Diversity by Variational Mutual Information Maximizing Autoencoder [38.35049378875308]
VOLTAは,VAEでトランスフォーマーをブリッジすることで,遺伝子多様性を高めるフレームワークである。
6つのデータセット上で2種類のトランスフォーマーを用いた総合的な実験を行い、生成品質を維持しながら生成の多様性を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2023-07-03T08:45:42Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。