論文の概要: A Simple Contrastive Learning Objective for Alleviating Neural Text
Degeneration
- arxiv url: http://arxiv.org/abs/2205.02517v1
- Date: Thu, 5 May 2022 08:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 15:02:07.478874
- Title: A Simple Contrastive Learning Objective for Alleviating Neural Text
Degeneration
- Title(参考訳): ニューラルテキストの退化を緩和するシンプルなコントラスト学習目標
- Authors: Shaojie Jiang, Ruqing Zhang, Svitlana Vakulenko, Maarten de Rijke
- Abstract要約: 本稿では,クロスエントロピーと異種訓練の利点を継承する,新しい対照的なトークン学習目標を提案する。
言語モデリングとオープンドメイン対話生成タスクに関する総合的な実験は、提案したコントラストトークンの目的がより繰り返しの少ないテキストを生成することを示す。
- 参考スコア(独自算出の注目度): 56.64703901898937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The cross-entropy objective has proved to be an all-purpose training
objective for autoregressive language models (LMs). However, without
considering the penalization of problematic tokens, LMs trained using
cross-entropy exhibit text degeneration. To address this, unlikelihood training
has been proposed to force unlikely tokens to be assigned a low probability by
a LM. But unlikelihood does not consider the relationship between the label
tokens and the unlikely token candidates, thus showing marginal improvements in
degeneration. We propose a new contrastive token learning objective that
inherits the advantages of cross-entropy and unlikelihood training and avoids
their limitations. The key idea is to force a LM to generate high probabilities
for label tokens at each step while low probabilities of negative candidates.
Comprehensive experiments on language modeling and open-domain dialogue
generation tasks show that the proposed contrastive token objective yields less
repetitive texts, with a higher generation quality than unlikelihood training,
achieving the new state-of-the-art performance.
- Abstract(参考訳): クロスエントロピーの目的は、自己回帰言語モデル(LM)のための全目的学習目標であることが証明された。
しかし、問題トークンのペナル化を考慮せずに、クロスエントロピーを用いて訓練されたLMはテキストの劣化を示す。
これを解決するために、LMにより低い確率を割り当てる可能性のあるトークンを強制するために、異質な訓練が提案されている。
しかし、ラベルトークンとありそうもないトークン候補との関係を考慮せず、変性の限界的な改善を示す。
本稿では,クロスエントロピーの利点を継承し,その限界を回避した新しい対照トークン学習目標を提案する。
鍵となる考え方は、LMに各ステップでラベルトークンの確率を高くし、負の候補の確率を低くすることである。
言語モデリングとオープンドメイン対話生成タスクに関する包括的実験により、提案するコントラストトークンの目的が反復的なテキストが少なく、非接触訓練よりも世代品質が高く、新たな最先端のパフォーマンスを実現していることが示された。
関連論文リスト
- Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Generative or Contrastive? Phrase Reconstruction for Better Sentence
Representation Learning [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分強力な文表現をもたらし、コントラスト学習と同等の文文類似性タスクで性能を達成することができる。
論文 参考訳(メタデータ) (2022-04-20T10:00:46Z) - A Contrastive Framework for Neural Text Generation [46.845997620234265]
モデル変性の根底にある理由はトークン表現の異方性分布であることを示す。
モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
論文 参考訳(メタデータ) (2022-02-13T21:46:14Z) - Learning to Selectively Learn for Weakly-supervised Paraphrase
Generation [81.65399115750054]
弱監督データを用いた高品質なパラフレーズを生成するための新しい手法を提案する。
具体的には、弱制御されたパラフレーズ生成問題に以下のように取り組む。
検索に基づく擬似パラフレーズ展開により、豊富なラベル付き並列文を得る。
提案手法は,既存の教師なしアプローチよりも大幅に改善され,教師付き最先端技術と同等の性能を示す。
論文 参考訳(メタデータ) (2021-09-25T23:31:13Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - A Brief Study on the Effects of Training Generative Dialogue Models with
a Semantic loss [37.8626106992769]
本研究は,モデルが相互に反応し,セマンティックな類似度にスコア付けするための学習目標を最小化する効果について考察する。
目標指向対話における次の発話生成タスクにおける2つの異なるデータセットについて、このアイデアを探求する。
論文 参考訳(メタデータ) (2021-06-20T04:39:29Z) - Diverse Keyphrase Generation with Neural Unlikelihood Training [6.645227801791013]
多様性の観点からシーケンス・ツー・シーケンス(S2S)キーフレーズ生成モデルについて検討した。
我々はまず、最大推定(MLE)を用いて訓練されたベースラインモデルにより生成された出力に含まれる情報冗長度について分析する。
論文 参考訳(メタデータ) (2020-10-15T11:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。