論文の概要: Iterative Refinement in the Continuous Space for Non-Autoregressive
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2009.07177v1
- Date: Tue, 15 Sep 2020 15:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 06:05:43.391428
- Title: Iterative Refinement in the Continuous Space for Non-Autoregressive
Neural Machine Translation
- Title(参考訳): 非自己回帰型ニューラルマシン翻訳における連続空間の反復的洗練
- Authors: Jason Lee, Raphael Shu, Kyunghyun Cho
- Abstract要約: 非自己回帰型機械翻訳のための効率的な推論手法を提案する。
反復的に連続空間で純粋に翻訳を洗練させる。
We evaluate our approach on WMT'14 En-De, WMT'16 Ro-En and IWSLT'16 De-En。
- 参考スコア(独自算出の注目度): 68.25872110275542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an efficient inference procedure for non-autoregressive machine
translation that iteratively refines translation purely in the continuous
space. Given a continuous latent variable model for machine translation (Shu et
al., 2020), we train an inference network to approximate the gradient of the
marginal log probability of the target sentence, using only the latent variable
as input. This allows us to use gradient-based optimization to find the target
sentence at inference time that approximately maximizes its marginal
probability. As each refinement step only involves computation in the latent
space of low dimensionality (we use 8 in our experiments), we avoid
computational overhead incurred by existing non-autoregressive inference
procedures that often refine in token space. We compare our approach to a
recently proposed EM-like inference procedure (Shu et al., 2020) that optimizes
in a hybrid space, consisting of both discrete and continuous variables. We
evaluate our approach on WMT'14 En-De, WMT'16 Ro-En and IWSLT'16 De-En, and
observe two advantages over the EM-like inference: (1) it is computationally
efficient, i.e. each refinement step is twice as fast, and (2) it is more
effective, resulting in higher marginal probabilities and BLEU scores with the
same number of refinement steps. On WMT'14 En-De, for instance, our approach is
able to decode 6.2 times faster than the autoregressive model with minimal
degradation to translation quality (0.9 BLEU).
- Abstract(参考訳): 連続空間において純粋に翻訳を洗練する非自己回帰機械翻訳の効率的な推論手法を提案する。
機械翻訳のための連続潜時変数モデル(Shu et al., 2020)が与えられた場合、我々は、潜時変数のみを入力として、ターゲット文の限界対数確率の勾配を近似するために推論ネットワークを訓練する。
これにより、勾配に基づく最適化を用いて、その限界確率をほぼ最大化する推定時間で対象文を見つけることができる。
各改良ステップは低次元の潜在空間でのみ計算を行うため(実験では8個)、トークン空間でしばしば洗練される既存の非自己回帰推論手順によって生じる計算オーバーヘッドを回避する。
提案手法は, 離散変数と連続変数の両方からなるハイブリッド空間を最適化する最近提案されているemライクな推論手順 (shu et al., 2020) と比較する。
wmt'14 en-de, wmt'16 ro-en および iwslt'16 de-en に対するアプローチを評価し,em 的な推論に対する2つの利点を考察した。
例えば、WMT'14 En-Deでは、翻訳品質(0.9BLEU)の低下を最小限に抑えた自己回帰モデルよりも6.2倍高速にデコードできる。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - Convergence of the mini-batch SIHT algorithm [0.0]
Iterative Hard Thresholding (IHT)アルゴリズムはスパース最適化の効果的な決定論的アルゴリズムとして広く検討されている。
スパースミニバッチSIHTが生成したシーケンスはスーパーマーチンゲールシーケンスであり、確率1と収束することを示す。
論文 参考訳(メタデータ) (2022-09-29T03:47:46Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - A Variance Controlled Stochastic Method with Biased Estimation for
Faster Non-convex Optimization [0.0]
減少勾配(SVRG)の性能を向上させるために, 分散制御勾配(VCSG)という新しい手法を提案する。
ラムダ$はVCSGで導入され、SVRGによる分散の過剰還元を避ける。
$mathcalO(min1/epsilon3/2,n1/4/epsilon)$ 勾配評価の数。
論文 参考訳(メタデータ) (2021-02-19T12:22:56Z) - On Stochastic Variance Reduced Gradient Method for Semidefinite
Optimization [14.519696724619074]
SVRG法は最も有効な方法の1つと考えられている。
半定型プログラミング(SDP)に適応する場合、理論と実践の間には大きなギャップがある
本稿では,このギャップを,半定値最適化に適応したオプションIを用いて,元のSVRGの新たな変種を利用して埋める。
論文 参考訳(メタデータ) (2021-01-01T13:55:32Z) - Unbiased Gradient Estimation for Variational Auto-Encoders using Coupled
Markov Chains [34.77971292478243]
変分オートエンコーダ(VAE)は、オートエンコーダのようなアーキテクチャで2つのニューラルネットワークを持つ、潜伏変数モデルである。
ログ型勾配の偏りのない推定器を導入することにより,VAEのトレーニング手法を開発する。
偏りのない推定器を装着したVAEは予測性能が向上することを示した。
論文 参考訳(メタデータ) (2020-10-05T08:11:55Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。