論文の概要: TeaForN: Teacher-Forcing with N-grams
- arxiv url: http://arxiv.org/abs/2010.03494v2
- Date: Fri, 9 Oct 2020 16:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:20:10.363312
- Title: TeaForN: Teacher-Forcing with N-grams
- Title(参考訳): TeaForN:N-gramで教師を強制する
- Authors: Sebastian Goodman, Nan Ding, Radu Soricut
- Abstract要約: 教師の強制力で訓練されたシーケンス生成モデルは、露出バイアスや時間経過による差異の欠如に関連する問題に悩まされる。
提案手法であるTeacher-Forcing with N-grams (TeaForN) は,2次時間軸に沿ってデコードするように訓練されたNデコーダのスタックを用いて,これらの問題に対処する。
本研究では、TeaForNが1つの機械翻訳ベンチマーク、WMT 2014 English- French、および2つのニュース要約ベンチマーク、CNN/DailymailとGigawordで生成品質を向上させることを示す。
- 参考スコア(独自算出の注目度): 21.680329973270638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence generation models trained with teacher-forcing suffer from issues
related to exposure bias and lack of differentiability across timesteps. Our
proposed method, Teacher-Forcing with N-grams (TeaForN), addresses both these
problems directly, through the use of a stack of N decoders trained to decode
along a secondary time axis that allows model parameter updates based on N
prediction steps. TeaForN can be used with a wide class of decoder
architectures and requires minimal modifications from a standard
teacher-forcing setup. Empirically, we show that TeaForN boosts generation
quality on one Machine Translation benchmark, WMT 2014 English-French, and two
News Summarization benchmarks, CNN/Dailymail and Gigaword.
- Abstract(参考訳): 教師の強制力で訓練されたシーケンス生成モデルは、露出バイアスや時間経過による差異の欠如に関連する問題に悩まされる。
提案手法であるTeacher-Forcing with N-grams (TeaForN) は,Nの予測ステップに基づくモデルパラメータの更新を可能にする二次時間軸に沿ってデコードするように訓練されたNデコーダのスタックを用いて,これらの問題を直接的に解決する。
TeaForNは幅広い種類のデコーダアーキテクチャで使用することができ、標準的な教師強制設定から最小限の変更を必要とする。
経験的に、TeaForNは1つの機械学習ベンチマーク、WMT 2014 English- French、および2つのNews Summarizationベンチマーク、CNN/DailymailとGigawordで生成品質を向上させる。
関連論文リスト
- On Instruction-Finetuning Neural Machine Translation Models [13.801102065766777]
ニューラルネットワーク翻訳(NMT)モデルのための命令微調整を導入する。
我々の研究は、従来のNMTモデルの命令追従能力を示す最初のものの一つである。
論文 参考訳(メタデータ) (2024-10-07T23:26:13Z) - Understanding the Failure of Batch Normalization for Transformers in NLP [16.476194435004732]
バッチ正規化(BN)は、ディープニューラルネットワークのトレーニングを加速する技術である。
BNは、レイヤ正規化(LN)が支配する自然言語処理(NLP)において、その位置を守らない
正規化BN(RBN)はBNの性能を一貫して改善し、20設定中17設定でLNと同等または同等である。
論文 参考訳(メタデータ) (2022-10-11T05:18:47Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Nearest Neighbor Knowledge Distillation for Neural Machine Translation [50.0624778757462]
k-nearest-neighbor machine translation (NN-MT) は機械翻訳タスクにおける最先端の結果の多くを達成している。
NN-KDはベースNMTモデルをトレーニングし、NNの知識を直接学習する。
論文 参考訳(メタデータ) (2022-05-01T14:30:49Z) - KNN-BERT: Fine-Tuning Pre-Trained Models with KNN Classifier [61.063988689601416]
事前学習されたモデルは、クロスエントロピー損失によって最適化された線形分類器を用いて、微調整された下流タスクに広く利用されている。
これらの問題は、同じクラスの類似点と、予測を行う際の矛盾点に焦点を当てた表現を学習することで改善することができる。
本稿では、事前訓練されたモデル微調整タスクにおけるKNearest Neighborsについて紹介する。
論文 参考訳(メタデータ) (2021-10-06T06:17:05Z) - Using Perturbed Length-aware Positional Encoding for Non-autoregressive
Neural Machine Translation [32.088160646084525]
摂動長認識位置符号化を用いたシーケンスレベルの知識蒸留(SKD)を提案する。
WMT14ドイツ語から英語への翻訳では,バイリンガル評価法(BLEU)において,標準のLevenshtein Transformerを2.5ポイント上回る性能を示した。
論文 参考訳(メタデータ) (2021-07-29T00:51:44Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Zero-shot Cross-lingual Transfer of Neural Machine Translation with
Multilingual Pretrained Encoders [74.89326277221072]
多言語プリトレーニング済みエンコーダによるNMTモデルのクロスリンガル転送を改善する方法は、未検討です。
このタスクのシンプルで効果的なモデルであるSixTを提案します。
私達のモデルはCRISSおよびm2m-100より多くの英語テストセットでよりよい性能を達成します。
論文 参考訳(メタデータ) (2021-04-18T07:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。