論文の概要: Scheduled Sampling Based on Decoding Steps for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2108.12963v1
- Date: Mon, 30 Aug 2021 02:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:47:59.284386
- Title: Scheduled Sampling Based on Decoding Steps for Neural Machine
Translation
- Title(参考訳): ニューラルネットワーク翻訳のためのデコードステップに基づくスケジューリングサンプリング
- Authors: Yijin Liu, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou
- Abstract要約: 提案手法では,復号化ステップに基づくサンプリング手法を提案し,復号化ステップの増大に伴い,予測トークンの選択可能性を高める。
提案手法は,3つの大規模WMTタスクにおいて,トランスフォーマーベースラインとバニラスケジュールサンプリングを著しく上回っている。
- 参考スコア(独自算出の注目度): 25.406119773503786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scheduled sampling is widely used to mitigate the exposure bias problem for
neural machine translation. Its core motivation is to simulate the inference
scene during training by replacing ground-truth tokens with predicted tokens,
thus bridging the gap between training and inference. However, vanilla
scheduled sampling is merely based on training steps and equally treats all
decoding steps. Namely, it simulates an inference scene with uniform error
rates, which disobeys the real inference scene, where larger decoding steps
usually have higher error rates due to error accumulations. To alleviate the
above discrepancy, we propose scheduled sampling methods based on decoding
steps, increasing the selection chance of predicted tokens with the growth of
decoding steps. Consequently, we can more realistically simulate the inference
scene during training, thus better bridging the gap between training and
inference. Moreover, we investigate scheduled sampling based on both training
steps and decoding steps for further improvements. Experimentally, our
approaches significantly outperform the Transformer baseline and vanilla
scheduled sampling on three large-scale WMT tasks. Additionally, our approaches
also generalize well to the text summarization task on two popular benchmarks.
- Abstract(参考訳): スケジューリングサンプリングは、ニューラルネットワーク翻訳における露出バイアス問題を緩和するために広く使用されている。
そのコアモチベーションは、トレーニング中の推論シーンを予測トークンに置き換え、トレーニングと推論のギャップを埋めることによってシミュレートすることである。
しかしながら、バニラスケジュールサンプリングは単にトレーニングステップに基づいており、全ての復号ステップを等しく扱う。
すなわち、大きな復号ステップがエラーの蓄積によってエラー率が高い場合、実際の推論シーンに従わない、一様エラー率の推論シーンをシミュレートする。
上記の相違を緩和するため,デコードステップに基づいたスケジュールサンプリング手法を提案し,デコードステップの増大に伴う予測トークンの選択可能性を高めた。
これにより、トレーニング中の推論シーンをより現実的にシミュレートし、トレーニングと推論のギャップを埋めることが可能となる。
さらに,さらなる改善のために,トレーニングステップとデコードステップの両方に基づき,スケジュールサンプリングを検討する。
実験により,提案手法は3つの大規模wmtタスクにおいてトランスフォーマーベースラインとバニラスケジュールサンプリングを大きく上回っている。
さらに,本手法は,2つの一般的なベンチマーク上でのテキスト要約タスクにも適している。
関連論文リスト
- Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer [3.2634122554914002]
拡散に基づくボコーダはサンプリングに必要な多くのステップのために遅いと批判されている。
本稿では,目標がプロセスの進行時間ステップの異なる出力となる設定を提案する。
提案手法は競争時間帯に高忠実度音声を生成することを示す。
論文 参考訳(メタデータ) (2023-09-18T10:35:27Z) - Can Diffusion Model Achieve Better Performance in Text Generation?
Bridging the Gap between Training and Inference! [14.979893207094221]
拡散モデルは、離散テキストを連続空間にマッピングすることで、テキスト生成タスクにうまく適応している。
トレーニングと推論の間には、推論中に前処理が欠如しているため、無視できないギャップがある。
本稿では、上記のギャップを埋める単純な方法として、Distance Penalty と Adaptive Decay Sampling を提案する。
論文 参考訳(メタデータ) (2023-05-08T05:32:22Z) - Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation [10.306522595622651]
トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。
DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-31T16:41:06Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Uniform Sampling over Episode Difficulty [55.067544082168624]
本稿では,その難易度に基づいて,エピソードサンプリング分布を近似する手法を提案する。
提案手法はアルゴリズムに依存しないため,これらの知見を利用して数発の学習精度を向上させることができる。
論文 参考訳(メタデータ) (2021-08-03T17:58:54Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z) - On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文 参考訳(メタデータ) (2021-04-21T12:55:52Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Bridging the Gap Between Training and Inference for Spatio-Temporal
Forecasting [16.06369357595426]
本稿では,S-temporal sequence forecastingのトレーニングと推論のギャップを埋めるために,時間的プログレッシブ・グロース・サンプリングというカリキュラムベースの新しい戦略を提案する。
実験結果から,提案手法は長期依存をモデル化し,2つの競合データセットに対するベースラインアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2020-05-19T10:14:43Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。
段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。
オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文 参考訳(メタデータ) (2020-02-17T18:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。