論文の概要: Energy-Based Reranking: Improving Neural Machine Translation Using
Energy-Based Models
- arxiv url: http://arxiv.org/abs/2009.13267v4
- Date: Mon, 20 Sep 2021 22:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:26:18.750835
- Title: Energy-Based Reranking: Improving Neural Machine Translation Using
Energy-Based Models
- Title(参考訳): エネルギーベースリグレード:エネルギーベースモデルを用いたニューラルマシン翻訳の改善
- Authors: Sumanta Bhattacharyya, Amirmohammad Rooshenas, Subhajit Naskar, Simeng
Sun, Mohit Iyyer, Andrew McCallum
- Abstract要約: 自己回帰型ニューラルネットワーク翻訳(NMT)における最大推定(MLE)とBLEUスコアなどのタスク尺度の相違について検討する。
MLEベースのトレーニングされたNMTから引き出されたサンプルは、所望の分布をサポートします。ビーム復号出力と比較して、BLEUスコアがはるかに高いサンプルがあります。
目的文の辺縁エネルギーモデルと、目的文の辺縁エネルギーモデルの両方を用いてアルゴリズムを改良する。
- 参考スコア(独自算出の注目度): 59.039592890187144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The discrepancy between maximum likelihood estimation (MLE) and task measures
such as BLEU score has been studied before for autoregressive neural machine
translation (NMT) and resulted in alternative training algorithms (Ranzato et
al., 2016; Norouzi et al., 2016; Shen et al., 2016; Wu et al., 2018). However,
MLE training remains the de facto approach for autoregressive NMT because of
its computational efficiency and stability. Despite this mismatch between the
training objective and task measure, we notice that the samples drawn from an
MLE-based trained NMT support the desired distribution -- there are samples
with much higher BLEU score comparing to the beam decoding output. To benefit
from this observation, we train an energy-based model to mimic the behavior of
the task measure (i.e., the energy-based model assigns lower energy to samples
with higher BLEU score), which is resulted in a re-ranking algorithm based on
the samples drawn from NMT: energy-based re-ranking (EBR). We use both marginal
energy models (over target sentence) and joint energy models (over both source
and target sentences). Our EBR with the joint energy model consistently
improves the performance of the Transformer-based NMT: +4 BLEU points on
IWSLT'14 German-English, +3.0 BELU points on Sinhala-English, +1.2 BLEU on
WMT'16 English-German tasks.
- Abstract(参考訳): 最大推定値(MLE)とBLEUスコアなどのタスク尺度との差は、自己回帰型ニューラルネットワーク翻訳(NMT)に先立って研究され、代替トレーニングアルゴリズム(Ranzato et al., 2016; Norouzi et al., 2016; Shen et al., 2016; Wu et al., 2018)が得られた。
しかし、MLEトレーニングはその計算効率と安定性のため、自己回帰的NMTの事実上のアプローチのままである。
トレーニング目標とタスク測度とのこのミスマッチにもかかわらず、MLEベースのトレーニングされたNMTから抽出されたサンプルが所望の分布をサポートすることに気づき、ビーム復号出力と比較してBLEUスコアがはるかに高いサンプルが存在する。
この観察の恩恵を受けるために、タスク測度の挙動を模倣するエネルギベースモデル(すなわち、エネルギベースモデルは、より高いブレウスコアのサンプルに対して低いエネルギを割り当てる)を訓練し、nmt: energy-based re-grade (ebr) から抽出したサンプルに基づく再ランキングアルゴリズムを導出する。
我々は限界エネルギーモデル(ターゲット文上)と共同エネルギーモデル(ソース文およびターゲット文上)の両方を使用する。
共同エネルギーモデルを用いたEBRはトランスフォーマーベースのNMTの性能を一貫して改善する: IWSLT'14ドイツ語-英語の+4 BLEU点、シンハラ英語の+3.0 BELU点、WMT'16英語-ドイツ語の+1.2 BLEU点。
関連論文リスト
- Iterated Denoising Energy Matching for Sampling from Boltzmann Densities [109.23137009609519]
反復Denoising Energy Matching (iDEM)
iDEMは,拡散型サンプリング装置から高モデル密度のサンプリング領域を (I) 交換し, (II) それらのサンプルをマッチング目的に使用した。
提案手法は,全測定値の最先端性能を達成し,2~5倍の速さでトレーニングを行う。
論文 参考訳(メタデータ) (2024-02-09T01:11:23Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Balanced Training of Energy-Based Models with Adaptive Flow Sampling [13.951904929884618]
エネルギーベースモデル (EBMs) は、非正規化ログ密度を直接パラメータ化する汎用密度推定モデルである。
我々は、異なる種類の生成モデル、正規化フロー(NF)を用いたESMのための新しい最大可能性トレーニングアルゴリズムを提案する。
本手法はトレーニング中にNFをEMMに適合させ,NF支援サンプリング方式によりESMの正確な勾配が常に得られるようにする。
論文 参考訳(メタデータ) (2023-06-01T13:58:06Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - End-to-End Training for Back-Translation with Categorical Reparameterization Trick [0.0]
バックトランスレーションは、ニューラルネットワーク翻訳(NMT)における効果的な半教師付き学習フレームワークである
事前学習されたNMTモデルは、モノリンガル文を翻訳し、他のNMTモデルのトレーニングのために合成バイリンガル文ペアを作成する。
翻訳文の離散的性質は、情報勾配が2つのNMTモデル間で流れるのを防ぐ。
論文 参考訳(メタデータ) (2022-02-17T06:31:03Z) - Reward Optimization for Neural Machine Translation with Learned Metrics [18.633477083783248]
我々は,最先端のモデルベースメトリクスBLEURTを用いてニューラル機械翻訳(NMT)モデルを最適化することが有用かどうかを検討する。
その結果、BLEURTによる報酬最適化は、平滑なBLEUでトレーニングする場合の限られた利益とは対照的に、メトリクススコアを大きなマージンで増加させることができます。
論文 参考訳(メタデータ) (2021-04-15T15:53:31Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z) - Residual Energy-Based Models for Text Generation [47.53354656462756]
トークンではなくシーケンスレベルで動作する非正規化エネルギーベースモデル(EBM)について検討する。
まず,事前訓練した局所正規化言語モデルの残差を抽出し,ノイズコントラスト推定を用いて訓練する。
2つの大規模言語モデリングデータセットに対する実験により,残余のEMMは局所正規化ベースラインよりも低いパープレキシティが得られることが示された。
論文 参考訳(メタデータ) (2020-04-22T23:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。