論文の概要: Momentum Calibration for Text Generation
- arxiv url: http://arxiv.org/abs/2212.04257v1
- Date: Thu, 8 Dec 2022 13:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:38:10.449688
- Title: Momentum Calibration for Text Generation
- Title(参考訳): テキスト生成のためのMomentum Calibration
- Authors: Xingxing Zhang, Yiran Liu, Xun Wang, Pengcheng He, Yang Yu, Si-Qing
Chen, Wayne Xiong, Furu Wei
- Abstract要約: テキスト生成のためのMoCa(bf Momentum bf Calibration)を提案する。
MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
- 参考スコア(独自算出の注目度): 86.58432361938806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The input and output of most text generation tasks can be transformed to two
sequences of tokens and they can be modeled using sequence-to-sequence learning
modeling tools such as Transformers. These models are usually trained by
maximizing the likelihood the output text sequence and assumes the input
sequence and all gold preceding tokens are given during training, while during
inference the model suffers from the exposure bias problem (i.e., it only has
access to its previously predicted tokens rather gold tokens during beam
search). In this paper, we propose MoCa ({\bf Mo}mentum {\bf Ca}libration) for
text generation. MoCa is an online method that dynamically generates slowly
evolving (but consistent) samples using a momentum moving average generator
with beam search and MoCa learns to align its model scores of these samples
with their actual qualities. Experiments on four text generation datasets
(i.e., CNN/DailyMail, XSum, SAMSum and Gigaword) show MoCa consistently
improves strong pre-trained transformers using vanilla fine-tuning and we
achieve the state-of-the-art results on CNN/DailyMail and SAMSum datasets.
- Abstract(参考訳): ほとんどのテキスト生成タスクの入力と出力はトークンの2つのシーケンスに変換し、Transformerのようなシーケンスからシーケンスまでの学習モデリングツールを使ってモデル化することができる。
これらのモデルは、通常、出力されたテキストシーケンスの確率を最大化し、入力シーケンスを仮定し、トレーニング中に先行するすべてのトークンが与えられると仮定して訓練される。
本稿では,テキスト生成のためのMoCa({\bf Mo}mentum {\bf Ca}libration)を提案する。
MoCaは、ビームサーチによる運動量平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法で、MoCaはこれらのサンプルのモデルスコアを実際の品質と整合させることを学ぶ。
4つのテキスト生成データセット(例えば、CNN/DailyMail、XSum、SAMSum、Gigaword)の実験では、MoCaはバニラ微細チューニングを使用して、トレーニング済みの強力なトランスフォーマーを一貫して改善し、CNN/DailyMailおよびSAMSumデータセットの最先端結果を達成する。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability [74.11825654535895]
BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。
テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
論文 参考訳(メタデータ) (2021-03-12T09:19:14Z) - Topical Language Generation using Transformers [4.795530213347874]
本稿では,事前学習したLMとトピックモデリング情報を組み合わせることで,トピック言語生成(TLG)の新しいアプローチを提案する。
我々は,新しいパラメータと関数を導入して,生成したテキストに提示される話題特徴量に影響を与えるモデルを拡張する。
実験結果から,復号化の高速化とともに,コヒーレンシー,多様性,流線型性の向上が得られた。
論文 参考訳(メタデータ) (2021-03-11T03:45:24Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。