論文の概要: VOLTA: Improving Generative Diversity by Variational Mutual Information Maximizing Autoencoder
- arxiv url: http://arxiv.org/abs/2307.00852v2
- Date: Tue, 19 Mar 2024 01:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 01:10:08.963023
- Title: VOLTA: Improving Generative Diversity by Variational Mutual Information Maximizing Autoencoder
- Title(参考訳): VOLTA: 変分相互情報最大化オートエンコーダによる生成多様性の向上
- Authors: Yueen Ma, Dafeng Chi, Jingjing Li, Kai Song, Yuzheng Zhuang, Irwin King,
- Abstract要約: VOLTAは,VAEでトランスフォーマーをブリッジすることで,遺伝子多様性を高めるフレームワークである。
6つのデータセット上で2種類のトランスフォーマーを用いた総合的な実験を行い、生成品質を維持しながら生成の多様性を著しく向上させることができることを示す。
- 参考スコア(独自算出の注目度): 38.35049378875308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The natural language generation domain has witnessed great success thanks to Transformer models. Although they have achieved state-of-the-art generative quality, they often neglect generative diversity. Prior attempts to tackle this issue suffer from either low model capacity or over-complicated architectures. Some recent methods employ the VAE framework to enhance diversity, but their latent variables fully depend on the input context, restricting exploration of the latent space. In this paper, we introduce VOLTA, a framework that elevates generative diversity by bridging Transformer with VAE via a more effective cross-attention-based connection, departing from conventional embedding concatenation or summation. Additionally, we propose integrating InfoGAN-style latent codes to enable input-independent variability, further diversifying the generation. Moreover, our framework accommodates discrete inputs alongside its existing support for continuous inputs. We perform comprehensive experiments with two types of Transformers on six datasets from three different NLG tasks to show that our approach can significantly improve generative diversity while maintaining generative quality.
- Abstract(参考訳): 自然言語生成ドメインはTransformerモデルのおかげで大きな成功を収めた。
彼らは最先端の世代的品質を達成したが、しばしば世代的多様性を無視する。
この問題に対処する以前の試みは、モデル容量の低いか、複雑すぎるアーキテクチャのいずれかに悩まされていた。
いくつかの最近の手法では、多様性を高めるためにVAEフレームワークを使用しているが、潜伏変数は入力コンテキストに完全に依存しており、潜伏空間の探索を制限している。
本稿では,従来の埋め込み結合や要約から離れて,より効果的な相互接続により,トランスフォーマーとVAEをブリッジすることで生成多様性を高めるフレームワークであるVOLTAを紹介する。
さらに,インプットに依存しない可変性を実現するためにInfoGANスタイルの潜時符号を統合することを提案する。
さらに,本フレームワークは,従来の連続入力サポートと並行して,離散入力に対応している。
我々は3つの異なるNLGタスクから得られた6つのデータセットに対して2種類のトランスフォーマーを用いて総合的な実験を行い、生成品質を維持しながら生成の多様性を著しく改善できることを示す。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Score-Based Multimodal Autoencoders [4.594159253008448]
マルチモーダル変分オートエンコーダ(VAEs)は、複数のモダリティを与えられた潜在空間内でのトラクタブルな後部の構築を容易にする。
本研究では, マルチモーダルVAEの生成性能を高めるための代替手法について検討した。
本モデルでは,単調なVAEの優れた生成品質と,異なるモダリティをまたいだコヒーレントな統合を組み合わせた。
論文 参考訳(メタデータ) (2023-05-25T04:43:47Z) - LayoutDM: Transformer-based Diffusion Model for Layout Generation [0.6445605125467572]
高品質な画像を生成するためにトランスフォーマーベース拡散モデル(DDPM)を提案する。
雑音配置データからサンプルを生成するために,トランスフォーマを用いた条件付きレイアウトデノイザを提案する。
本手法は, 品質と多様性の観点から, 最先端の生成モデルより優れる。
論文 参考訳(メタデータ) (2023-05-04T05:51:35Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - A Transformer Framework for Data Fusion and Multi-Task Learning in Smart
Cities [99.56635097352628]
本稿では,新興スマートシティを対象としたトランスフォーマーベースのAIシステムを提案する。
ほぼ全ての入力データと出力タスクタイプをサポートし、現在のS&CCをサポートする。
S&CC環境を代表する多様なタスクセットを学習して実演する。
論文 参考訳(メタデータ) (2022-11-18T20:43:09Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z) - Improving Diversity with Adversarially Learned Transformations for
Domain Generalization [81.26960899663601]
本稿では、ニューラルネットワークを用いた逆学習変換(ALT)を用いて、可塑性かつハードな画像変換をモデル化する新しいフレームワークを提案する。
我々は、ALTが既存の多様性モジュールと自然に連携して、ソースドメインの大規模変換によって最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-06-15T18:05:24Z) - Exploring Story Generation with Multi-task Objectives in Variational
Autoencoders [41.89428478049741]
GPT-2は一貫性のあるストーリーを生成できず、多様性に欠ける。
現在のストーリー生成モデルは、プロットやコモンセンスなどの追加情報をGPT-2に利用して生成プロセスを導く。
可変オートエンコーダ(VAE)構築のためのBERTとGPT-2の組み合わせについて検討する。
我々の評価は、改良されたVAEにより、より良い品質と多様性のトレードオフが得られ、反復的なストーリーコンテンツが生成されにくくなり、より情報に富んだ潜伏変数が学習できることを示している。
論文 参考訳(メタデータ) (2021-11-15T23:07:19Z) - Transformer-based Conditional Variational Autoencoder for Controllable
Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。
我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。
具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文 参考訳(メタデータ) (2021-01-04T08:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。