論文の概要: Unsupervised Text Embedding Space Generation Using Generative
Adversarial Networks for Text Synthesis
- arxiv url: http://arxiv.org/abs/2306.17181v2
- Date: Mon, 10 Jul 2023 10:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 17:56:54.312633
- Title: Unsupervised Text Embedding Space Generation Using Generative
Adversarial Networks for Text Synthesis
- Title(参考訳): 生成逆ネットワークを用いたテキスト合成のための教師なしテキスト埋め込み空間生成
- Authors: Jun-Min Lee, Tae-Bin Ha
- Abstract要約: 本稿では,テキスト埋め込み空間生成支援ネットワーク(TESGAN)を提案する。
TESGANは、トレーニングデータのテキストを直接参照しない教師なし学習を行い、データの記憶問題を克服する。
- 参考スコア(独自算出の注目度): 0.913755431537592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Adversarial Networks (GAN) is a model for data synthesis, which
creates plausible data through the competition of generator and discriminator.
Although GAN application to image synthesis is extensively studied, it has
inherent limitations to natural language generation. Because natural language
is composed of discrete tokens, a generator has difficulty updating its
gradient through backpropagation; therefore, most text-GAN studies generate
sentences starting with a random token based on a reward system. Thus, the
generators of previous studies are pre-trained in an autoregressive way before
adversarial training, causing data memorization that synthesized sentences
reproduce the training data. In this paper, we synthesize sentences using a
framework similar to the original GAN. More specifically, we propose Text
Embedding Space Generative Adversarial Networks (TESGAN) which generate
continuous text embedding spaces instead of discrete tokens to solve the
gradient backpropagation problem. Furthermore, TESGAN conducts unsupervised
learning which does not directly refer to the text of the training data to
overcome the data memorization issue. By adopting this novel method, TESGAN can
synthesize new sentences, showing the potential of unsupervised learning for
text synthesis. We expect to see extended research combining Large Language
Models with a new perspective of viewing text as an continuous space.
- Abstract(参考訳): GAN(Generative Adversarial Networks)は、データ合成のモデルであり、ジェネレータと識別器の競合を通じて可塑性データを生成する。
画像合成へのGANの適用は広く研究されているが、自然言語生成には固有の制限がある。
自然言語は離散トークンで構成されているため、生成元はバックプロパゲーションによる勾配の更新が困難であるため、ほとんどのテキストGAN研究は報酬システムに基づいてランダムトークンから始まる文を生成する。
このように、先行研究のジェネレータは、逆行訓練の前に自己回帰的に事前訓練され、合成文がトレーニングデータを再生するデータを記憶させる。
本稿では,従来のGANに類似したフレームワークを用いて文を合成する。
より具体的には、勾配バックプロパゲーション問題を解決するために、離散トークンの代わりに連続的なテキスト埋め込み空間を生成するtext embedded space generative adversarial networks (tesgan)を提案する。
さらに、テッガンは、データ記憶問題を克服するために、トレーニングデータのテキストを直接参照しない教師なし学習を行う。
この方法を採用することで、テッガンは新しい文を合成し、教師なし学習によるテキスト合成の可能性を示すことができる。
大規模言語モデルと,テキストを連続的な空間として見る新たな視点を組み合わせた,広範な研究が期待できる。
関連論文リスト
- Enhancing Text Generation in Joint NLG/NLU Learning Through Curriculum Learning, Semi-Supervised Training, and Advanced Optimization Techniques [0.0]
本研究では,NLG(Natural Language Generation)とNLU(Natural Language Understanding)の併用によってテキスト生成を改善する手法を開発した。
データは、クリーニング、トークン化、ストーミング、ストップワード削除など、注釈付きデータセットの収集と前処理によって作成される。
トランスフォーマーベースのエンコーダとデコーダ、長距離依存関係のキャプチャ、ソースターゲットシーケンスモデリングの改善。
政策勾配手法による強化学習、半教師付きトレーニング、注意機構の改善、および異なる近似を用いて、モデルを微調整し、複雑な言語タスクを効果的に処理する。
論文 参考訳(メタデータ) (2024-10-17T12:43:49Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - A survey on text generation using generative adversarial networks [0.0]
本研究は, ジェネレーティブ・アドバイサル・ネットワークを用いた最近の研究とテキスト生成の進展について, 徹底的なレビューを行う。
テキスト生成における敵対的学習の使用は、いわゆる「自然な」言語を生成する代替手段を提供するので、有望である。
論文 参考訳(メタデータ) (2022-12-20T17:54:08Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Collaborative Training of GANs in Continuous and Discrete Spaces for
Text Generation [21.435286755934534]
本稿では,連続空間と離散空間の協調学習を促進する新しいテキストGANアーキテクチャを提案する。
我々のモデルは、品質、多様性、グローバルな一貫性に関して、最先端のGANよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-10-16T07:51:16Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - PALM: Pre-training an Autoencoding&Autoregressive Language Model for
Context-conditioned Generation [92.7366819044397]
自己指導型事前学習は、自然言語の理解と生成のための強力な技術として登場した。
本研究は,大規模未ラベルコーパス上で自己エンコーディングと自己回帰言語モデルを共同で事前学習する新しいスキームをPALMに提示する。
広範な実験により、PALMは様々な言語生成ベンチマークにおいて、新しい最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2020-04-14T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。