論文の概要: Straight to the Gradient: Learning to Use Novel Tokens for Neural Text
Generation
- arxiv url: http://arxiv.org/abs/2106.07207v1
- Date: Mon, 14 Jun 2021 07:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 03:38:26.368975
- Title: Straight to the Gradient: Learning to Use Novel Tokens for Neural Text
Generation
- Title(参考訳): 勾配への直行:ニューラルテキスト生成に新しいトークンを使用するための学習
- Authors: Xiang Lin, Simeng Han, Shafiq Joty
- Abstract要約: 損失関数の勾配を直に修正したScaleGradを導入し、標準MLE目標の劣化問題を改善する。
実験結果から,提案手法はオープンエンド世代だけでなく,有向生成タスクにおいても有効であることが示された。
- 参考スコア(独自算出の注目度): 4.866431869728018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced large-scale neural language models have led to significant success
in many language generation tasks. However, the most commonly used training
objective, Maximum Likelihood Estimation (MLE), has been shown problematic,
where the trained model prefers using dull and repetitive phrases. In this
work, we introduce ScaleGrad, a modification straight to the gradient of the
loss function, to remedy the degeneration issue of the standard MLE objective.
By directly maneuvering the gradient information, ScaleGrad makes the model
learn to use novel tokens. Empirical results show the effectiveness of our
method not only in open-ended generation, but also in directed generation
tasks. With the simplicity in architecture, our method can serve as a general
training objective that is applicable to most of the neural text generation
tasks.
- Abstract(参考訳): 高度な大規模ニューラルネットワークモデルは、多くの言語生成タスクで大きな成功を収めた。
しかしながら、最も一般的に使用されるトレーニング目標である最大度推定(mle)は問題視されており、訓練されたモデルは鈍く反復的なフレーズを使うことを好む。
そこで本研究では,損失関数の勾配を直に修正したScaleGradを導入し,標準MLE目標の劣化問題を改善する。
勾配情報を直接操作することで、ScaleGradはモデルに新しいトークンの使用を学習させる。
実験の結果,提案手法はオープンエンド生成だけでなく,有向生成タスクにおいても有効であることがわかった。
アーキテクチャの単純さにより,本手法は,ニューラルテキスト生成タスクのほとんどに適用可能な汎用的な学習目標として機能する。
関連論文リスト
- Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Memory Efficient Continual Learning for Neural Text Classification [10.70710638820641]
そこで本研究では,事前学習モデルを用いてテキスト分類を行う手法を提案する。
実験により,本手法では,他の手法と比較して,モデルパラメータが著しく少ないことが実証された。
我々の手法はほとんど忘れられませんが、予測性能は技術水準と同等に保たれますが、メモリ効率は低いです。
論文 参考訳(メタデータ) (2022-03-09T10:57:59Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - LT-LM: a novel non-autoregressive language model for single-shot lattice
rescoring [55.16665077221941]
本稿では,格子全体をモデルへの単一呼び出しで処理する新しいリスコリング手法を提案する。
当社のリコリングポリシーの主な特徴は、新しい非回帰的格子変換言語モデル(LT-LM)です。
論文 参考訳(メタデータ) (2021-04-06T14:06:07Z) - Neural Language Modeling for Contextualized Temporal Graph Generation [49.21890450444187]
本稿では,大規模事前学習言語モデルを用いた文書のイベントレベル時間グラフの自動生成に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2020-10-20T07:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。