Fugu-MT 論文翻訳(概要): Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent Variable Inference for Text Generation

論文の概要: Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent Variable Inference for Text Generation

arxiv url: http://arxiv.org/abs/2207.06130v1
Date: Wed, 13 Jul 2022 11:27:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-14 21:39:07.573542
Title: Fuse It More Deeply! A Variational Transformer with Layer-Wise Latent Variable Inference for Text Generation
Title（参考訳）: もっと深く融合しろ! テキスト生成のための階層型潜在変数推論を用いた変分トランス
Authors: Jinyi Hu, Xiaoyuan Yi, Wenhao Li, Maosong Sun, Xing Xie
Abstract要約: KLの消滅問題を克服する新しい変分変換器フレームワークを提案する。提案手法は,遅延変数を絡み合わせることで,層内における後部情報減少を回避することができることを示す。
参考スコア（独自算出の注目度）: 85.5379146125199
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The past several years have witnessed Variational Auto-Encoder's superiority in various text generation tasks. However, due to the sequential nature of the text, auto-regressive decoders tend to ignore latent variables and then reduce to simple language models, known as the KL vanishing problem, which would further deteriorate when VAE is combined with Transformer-based structures. To ameliorate this problem, we propose DELLA, a novel variational Transformer framework. DELLA learns a series of layer-wise latent variables with each inferred from those of lower layers and tightly coupled with the hidden states by low-rank tensor product. In this way, DELLA forces these posterior latent variables to be fused deeply with the whole computation path and hence incorporate more information. We theoretically demonstrate that our method can be regarded as entangling latent variables to avoid posterior information decrease through layers, enabling DELLA to get higher non-zero KL values even without any annealing or thresholding tricks. Experiments on four unconditional and three conditional generation tasks show that DELLA could better alleviate KL vanishing and improve both quality and diversity compared to several strong baselines.
Abstract（参考訳）: 過去数年間、様々なテキスト生成タスクにおける変分オートエンコーダの優位性を目撃してきた。しかし、テキストのシーケンシャルな性質のため、自動回帰デコーダは潜伏変数を無視してKL消滅問題と呼ばれる単純な言語モデルに還元する傾向にあり、VAEとTransformerベースの構造を組み合わせるとさらに劣化する。この問題を改善するために,新しい変分トランスフォーマーフレームワーク della を提案する。 DELLAは、下位層の変数からそれぞれを推論し、低ランクテンソル積によって隠れた状態と密結合した一連の層ワイド潜伏変数を学習する。このようにして、DELLAはこれらの後続潜伏変数を計算経路全体と深く融合させ、より多くの情報を組み込む。理論的には,本手法は,アニーリングやしきい値設定を行なわずに,より高い非ゼロkl値を得ることができる。 4つの無条件および3つの条件生成タスクの実験により、dellaはいくつかの強力なベースラインと比較して、klの消失を緩和し、品質と多様性の両方を改善した。

関連論文リスト

Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文参考訳（メタデータ） (2024-10-07T17:57:38Z)
Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。本稿では,タスクラテントを明示的に推論する効果について検討する。タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文参考訳（メタデータ） (2024-05-29T15:06:10Z)
VOLTA: Improving Generative Diversity by Variational Mutual Information Maximizing Autoencoder [38.35049378875308]
VOLTAは,VAEでトランスフォーマーをブリッジすることで,遺伝子多様性を高めるフレームワークである。 6つのデータセット上で2種類のトランスフォーマーを用いた総合的な実験を行い、生成品質を維持しながら生成の多様性を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2023-07-03T08:45:42Z)
Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文参考訳（メタデータ） (2022-10-22T10:25:35Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文参考訳（メタデータ） (2021-03-05T03:44:42Z)
Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文参考訳（メタデータ） (2020-04-30T13:27:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。