論文の概要: On the Discrepancy between Density Estimation and Sequence Generation
- arxiv url: http://arxiv.org/abs/2002.07233v1
- Date: Mon, 17 Feb 2020 20:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:18:24.424110
- Title: On the Discrepancy between Density Estimation and Sequence Generation
- Title(参考訳): 密度推定と系列生成の差について
- Authors: Jason Lee, Dustin Tran, Orhan Firat, Kyunghyun Cho
- Abstract要約: log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
- 参考スコア(独自算出の注目度): 92.70116082182076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many sequence-to-sequence generation tasks, including machine translation and
text-to-speech, can be posed as estimating the density of the output y given
the input x: p(y|x). Given this interpretation, it is natural to evaluate
sequence-to-sequence models using conditional log-likelihood on a test set.
However, the goal of sequence-to-sequence generation (or structured prediction)
is to find the best output y^ given an input x, and each task has its own
downstream metric R that scores a model output by comparing against a set of
references y*: R(y^, y* | x). While we hope that a model that excels in density
estimation also performs well on the downstream metric, the exact correlation
has not been studied for sequence generation tasks. In this paper, by comparing
several density estimators on five machine translation tasks, we find that the
correlation between rankings of models based on log-likelihood and BLEU varies
significantly depending on the range of the model families being compared.
First, log-likelihood is highly correlated with BLEU when we consider models
within the same family (e.g. autoregressive models, or latent variable models
with the same parameterization of the prior). However, we observe no
correlation between rankings of models across different families: (1) among
non-autoregressive latent variable models, a flexible prior distribution is
better at density estimation but gives worse generation quality than a simple
prior, and (2) autoregressive models offer the best translation performance
overall, while latent variable models with a normalizing flow prior give the
highest held-out log-likelihood across all datasets. Therefore, we recommend
using a simple prior for the latent variable non-autoregressive model when fast
generation speed is desired.
- Abstract(参考訳): 機械翻訳やテキスト音声を含むシーケンス・ツー・シーケンス生成タスクは、入力 x: p(y|x) が与えられたときの出力 y の密度を推定できる。
この解釈を前提にすると、テスト集合上の条件付きログ類似性を用いてシーケンスからシーケンスへのモデルを評価することは自然である。
しかし、シーケンス-シーケンス生成(または構造化予測)の目標は、入力xが与えた最良の出力y^を見つけることであり、各タスクは、参照y*: r(y^, y* | x)の集合と比較して出力されるモデルを示す独自の下流メトリックrを持つ。
密度推定に優れたモデルが下流のメトリクスでもうまく機能することを願っているが、シーケンス生成タスクでは正確な相関が研究されていない。
本稿では,5つの機械翻訳タスクにおいて,複数の密度推定器を比較することにより,比較対象のモデルファミリーの範囲によって,対数様度に基づくモデルのランク付けとBLEUとの相関が著しく異なることがわかった。
まず、同じファミリー内のモデル(例えば自己回帰モデルや、前者と同じパラメータ化を持つ潜在変数モデル)を考えると、ログライクリフはBLEUと高い相関性を持つ。
しかし,1)非自己回帰型潜在変数モデルでは,フレキシブルな事前分布は密度推定では優れているが,単純な先行モデルよりも生成品質が悪く,(2)自己回帰型モデルでは全体的な翻訳性能が良好であり,一方,正規化フローを持つ潜在変数モデルでは,すべてのデータセットで最大保持数となる。
したがって、高速な生成速度が要求される場合、遅延変数非自己回帰モデルに対して単純な事前利用を推奨する。
関連論文リスト
- SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - On Maximum Likelihood Training of Score-Based Generative Models [17.05208572228308]
目的が混合重み付けの特定の選択の最大可能性と同値であることを示す。
スコア関数のみをパラメータ化することで,最大確率トレーニングとテスト時間ログ類似度評価の両方が達成できることを示す。
論文 参考訳(メタデータ) (2021-01-22T18:22:29Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Variational Mixture of Normalizing Flows [0.0]
生成逆数ネットワークオートサイトGAN、変分オートエンコーダオートサイトベイペーパー、およびそれらの変種などの深い生成モデルは、複雑なデータ分布をモデル化するタスクに広く採用されている。
正規化フローはこの制限を克服し、確率密度関数にそのような公式の変更を利用する。
本研究は,混合モデルのコンポーネントとして正規化フローを用い,そのようなモデルのエンドツーエンドトレーニング手順を考案することによって,この問題を克服する。
論文 参考訳(メタデータ) (2020-09-01T17:20:08Z) - Pattern Similarity-based Machine Learning Methods for Mid-term Load
Forecasting: A Comparative Study [0.0]
パターン類似性に基づく年次電力需要予測手法について検討した。
モデルの不可欠な部分は、時系列シーケンスのパターンを用いた時系列表現である。
近接モデル,ファジィ近傍モデル,カーネル回帰モデル,一般回帰ニューラルネットワークの4つのモデルを考える。
論文 参考訳(メタデータ) (2020-03-03T12:14:36Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。