論文の概要: Residual Energy-Based Models for Text Generation
- arxiv url: http://arxiv.org/abs/2004.11714v1
- Date: Wed, 22 Apr 2020 23:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:11:33.091749
- Title: Residual Energy-Based Models for Text Generation
- Title(参考訳): 残留エネルギーに基づくテキスト生成モデル
- Authors: Yuntian Deng, Anton Bakhtin, Myle Ott, Arthur Szlam, Marc'Aurelio
Ranzato
- Abstract要約: トークンではなくシーケンスレベルで動作する非正規化エネルギーベースモデル(EBM)について検討する。
まず,事前訓練した局所正規化言語モデルの残差を抽出し,ノイズコントラスト推定を用いて訓練する。
2つの大規模言語モデリングデータセットに対する実験により,残余のEMMは局所正規化ベースラインよりも低いパープレキシティが得られることが示された。
- 参考スコア(独自算出の注目度): 47.53354656462756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text generation is ubiquitous in many NLP tasks, from summarization, to
dialogue and machine translation. The dominant parametric approach is based on
locally normalized models which predict one word at a time. While these work
remarkably well, they are plagued by exposure bias due to the greedy nature of
the generation process. In this work, we investigate un-normalized energy-based
models (EBMs) which operate not at the token but at the sequence level. In
order to make training tractable, we first work in the residual of a pretrained
locally normalized language model and second we train using noise contrastive
estimation. Furthermore, since the EBM works at the sequence level, we can
leverage pretrained bi-directional contextual representations, such as BERT and
RoBERTa. Our experiments on two large language modeling datasets show that
residual EBMs yield lower perplexity compared to locally normalized baselines.
Moreover, generation via importance sampling is very efficient and of higher
quality than the baseline models according to human evaluation.
- Abstract(参考訳): テキスト生成は、要約、対話、機械翻訳など、多くのNLPタスクにおいてユビキタスである。
支配的パラメトリックアプローチは、一度に1つの単語を予測する局所正規化モデルに基づいている。
これらは非常によく機能するが、生成過程の欲深い性質のため、露出バイアスによって悩まされる。
本研究では,トークンではなくシーケンスレベルで動作する非正規化エネルギーベースモデル(EBM)について検討する。
まず,事前訓練された局所正規化言語モデルの残差に対処し,次にノイズコントラスト推定を用いた訓練を行う。
さらに、ESMはシーケンスレベルで機能するため、BERTやRoBERTaといった事前訓練された双方向のコンテキスト表現を利用することができる。
2つの大規模言語モデリングデータセットに対する実験により,残余のEMMは局所正規化ベースラインよりも低いパープレキシティが得られることが示された。
さらに、重要サンプリングによる生成は非常に効率的で、人的評価によるベースラインモデルよりも高品質である。
関連論文リスト
- Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - End-to-End Training for Back-Translation with Categorical Reparameterization Trick [0.0]
バックトランスレーションは、ニューラルネットワーク翻訳(NMT)における効果的な半教師付き学習フレームワークである
事前学習されたNMTモデルは、モノリンガル文を翻訳し、他のNMTモデルのトレーニングのために合成バイリンガル文ペアを作成する。
翻訳文の離散的性質は、情報勾配が2つのNMTモデル間で流れるのを防ぐ。
論文 参考訳(メタデータ) (2022-02-17T06:31:03Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。