論文の概要: Integrated Training for Sequence-to-Sequence Models Using
Non-Autoregressive Transformer
- arxiv url: http://arxiv.org/abs/2109.12950v1
- Date: Mon, 27 Sep 2021 11:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:35:11.343275
- Title: Integrated Training for Sequence-to-Sequence Models Using
Non-Autoregressive Transformer
- Title(参考訳): 非自己回帰変換器を用いた系列列列モデルの総合学習
- Authors: Evgeniia Tokarchuk, Jan Rosendahl, Weiyue Wang, Pavel Petrushkov,
Tomer Lancewicki, Shahram Khadivi, Hermann Ney
- Abstract要約: 本稿では,非自己回帰変換器をベースとしたケースドモデルを提案する。
我々は、ピボットベースの2つの機械翻訳タスク、すなわち、フランス語-ドイツ語とドイツ語-チェコ語について評価を行う。
- 参考スコア(独自算出の注目度): 49.897891031932545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex natural language applications such as speech translation or pivot
translation traditionally rely on cascaded models. However, cascaded models are
known to be prone to error propagation and model discrepancy problems.
Furthermore, there is no possibility of using end-to-end training data in
conventional cascaded systems, meaning that the training data most suited for
the task cannot be used. Previous studies suggested several approaches for
integrated end-to-end training to overcome those problems, however they mostly
rely on (synthetic or natural) three-way data. We propose a cascaded model
based on the non-autoregressive Transformer that enables end-to-end training
without the need for an explicit intermediate representation. This new
architecture (i) avoids unnecessary early decisions that can cause errors which
are then propagated throughout the cascaded models and (ii) utilizes the
end-to-end training data directly. We conduct an evaluation on two pivot-based
machine translation tasks, namely French-German and German-Czech. Our
experimental results show that the proposed architecture yields an improvement
of more than 2 BLEU for French-German over the cascaded baseline.
- Abstract(参考訳): 音声翻訳やピボット翻訳のような複雑な自然言語アプリケーションは伝統的にカスケードモデルに依存している。
しかし、カスケードモデルでは誤りの伝播やモデルの相違が問題となることが知られている。
さらに、従来のケースケードシステムでは、エンドツーエンドのトレーニングデータを使用することができないため、タスクに最も適したトレーニングデータが使用できない。
これまでの研究では、これらの問題を克服するための統合的なエンドツーエンドトレーニングのアプローチがいくつか提案されているが、それらは主に(合成的あるいは自然な)3方向データに依存している。
明示的な中間表現を必要とせず、エンドツーエンドのトレーニングを可能にする非自己回帰変圧器に基づくカスケードモデルを提案する。
この新しい建築
(i)カスケードモデル全体に伝播するエラーを引き起こすような不必要な早期決定を避ける。
(ii) エンドツーエンドのトレーニングデータを直接利用する。
我々は、ピボットベースの2つの機械翻訳タスク、すなわち、フランス・ドイツ・ドイツ・チェコの評価を行う。
実験の結果,提案手法は,カスケードベースラインよりも2BLEU以上の性能向上を実現していることがわかった。
関連論文リスト
- Bi-Drop: Enhancing Fine-tuning Generalization via Synchronous sub-net
Estimation and Optimization [58.90989478049686]
Bi-Dropは、様々なサブネットからの勾配を使ってモデルパラメータを選択的に更新する微調整戦略である。
GLUEベンチマークの実験は、Bi-Dropが従来の微調整方法よりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2023-05-24T06:09:26Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Unsupervised Pretraining for Neural Machine Translation Using Elastic
Weight Consolidation [0.0]
本研究は、ニューラルネットワーク翻訳における教師なし事前訓練(NMT)の現在進行中の研究を提示する。
本研究では,モノリンガルデータを用いて学習した2つの言語モデルを用いて,エンコーダとデコーダの重み付けを初期化する。
両方向のNMTエンコーダを左から右への言語モデルで初期化し、元の左から右への言語モデリングタスクを記憶させることで、エンコーダの学習能力が制限されることを示す。
論文 参考訳(メタデータ) (2020-10-19T11:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。