論文の概要: A Representation Modeling Based Language GAN with Completely Random
Initialization
- arxiv url: http://arxiv.org/abs/2208.02531v1
- Date: Thu, 4 Aug 2022 08:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:27:46.352844
- Title: A Representation Modeling Based Language GAN with Completely Random
Initialization
- Title(参考訳): 完全ランダム初期化を用いた表現モデルに基づく言語GAN
- Authors: Da Ren and Qing Li
- Abstract要約: GAN(Generative Adversarial Networks)は、悪名高い露出バイアス問題に取り組む可能性がある。
既存の言語 GAN では、REINFORCE や連続緩和といった推定器を使って単語の分布をモデル化している。
本研究では,これらの問題に対処する手法として,ドロップアウトサンプリングと完全正規化LSTMの2つを提案する。
- 参考スコア(独自算出の注目度): 7.642043456676739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text generative models trained via Maximum Likelihood Estimation (MLE) suffer
from the notorious exposure bias problem, and Generative Adversarial Networks
(GANs) are shown to have potential to tackle it. Existing language GANs adopt
estimators like REINFORCE or continuous relaxations to model word
distributions. The inherent limitations of such estimators lead current models
to rely on pre-training techniques (MLE pre-training or pre-trained
embeddings). Representation modeling methods which are free from those
limitations, however, are seldom explored because of its poor performance in
previous attempts. Our analyses reveal that invalid sampling method and
unhealthy gradients are the main contributors to its unsatisfactory
performance. In this work, we present two techniques to tackle these problems:
dropout sampling and fully normalized LSTM. Based on these two techniques, we
propose InitialGAN whose parameters are randomly initialized completely.
Besides, we introduce a new evaluation metric, Least Coverage Rate, to better
evaluate the quality of generated samples. The experimental results demonstrate
that InitialGAN outperforms both MLE and other compared models. To the best of
our knowledge, it is the first time a language GAN can outperform MLE without
any pre-training techniques.
- Abstract(参考訳): MLE(Maximum Likelihood Estimation)によって訓練されたテキスト生成モデルは、悪名高い露出バイアス問題に悩まされており、GAN(Generative Adversarial Networks)はそれに対処する可能性がある。
既存の言語 GAN では、REINFORCE や連続緩和といった推定器を使って単語の分布をモデル化している。
このような推定器の固有の制限は、現在のモデルが事前トレーニング技術(事前トレーニングまたは事前トレーニング埋め込み)に依存することに繋がる。
しかし、これらの制限から解放された表現モデリング手法は、以前の試みでは性能が低かったため、しばしば検討される。
分析の結果,不正なサンプリング法と不健全な勾配が,その不満足な性能の主な要因であることが判明した。
本研究では,これらの問題に対処する手法として,ドロップアウトサンプリングと完全正規化LSTMの2つを提案する。
これらの2つの手法に基づいて,パラメータが完全にランダムに初期化される初期GANを提案する。
また,新たな評価基準であるLast Coverage Rateを導入し,生成したサンプルの質をよりよく評価する。
実験の結果,InitialGANはMLEと他の比較モデルよりも優れていた。
私たちの知る限りでは、言語 GAN が事前学習のテクニックを使わずに MLE より優れているのは、これが初めてです。
関連論文リスト
- Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image
Synthesis [7.234618871984921]
新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。
トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。
これにより、既存のGANやIMLEベースの手法に比べて画質が大幅に向上する。
論文 参考訳(メタデータ) (2024-09-26T00:19:42Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Adapt then Unlearn: Exploiting Parameter Space Semantics for Unlearning
in Generative Adversarial Networks [5.479797073162603]
GANのパラメータ空間は、特定の望ましくない特徴を抑えるために活用できる有意義な方向を示す。
提案手法は「Adapt-then-Unlearn」と呼ばれ、望ましくない特徴を学習すると同時に、生成したサンプルの品質も維持する。
本手法は,初期段階において,ユーザが提供した負のサンプルを用いて事前学習したGANを適応させ,その後段階において,望ましくない特徴を学習することに集中する。
論文 参考訳(メタデータ) (2023-09-25T11:36:20Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - ColdGANs: Taming Language GANs with Cautious Sampling Strategies [29.943949944682196]
GAN(Generative Adversarial Networks)は制約を緩和するが、テキストの離散性によって言語生成への応用が妨げられている。
古典的なサンプリングが不安定なトレーニングにどのように影響するかを示す。
我々は,サンプルを分散モードに近づけることで,よりスムーズな学習ダイナミックスを実現するGANフレームワークにおいて,代替的な探索戦略を検討することを提案する。
我々の知る限りでは、提案言語 GAN は MLE と好意的に比較され、3つの生成タスクにおける最先端技術の改善が得られた。
論文 参考訳(メタデータ) (2020-06-08T14:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。