論文の概要: Non-Autoregressive Neural Dialogue Generation
- arxiv url: http://arxiv.org/abs/2002.04250v2
- Date: Thu, 13 Feb 2020 13:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 02:24:23.969415
- Title: Non-Autoregressive Neural Dialogue Generation
- Title(参考訳): 非自己回帰型ニューラルダイアログ生成
- Authors: Qinghong Han, Yuxian Meng, Fei Wu, Jiwei Li
- Abstract要約: stsモデルの枠組みでは、$log p(y|x) + log p(x|y)$ からの直接復号は不可能である。
我々は,この非言語的最適性問題に対処するために,非自己回帰(非AR)生成モデルを提案する。
実験の結果,提案した非AR戦略により,より多様で一貫性があり,適切な応答が得られた。
- 参考スコア(独自算出の注目度): 46.7909443287208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximum Mutual information (MMI), which models the bidirectional dependency
between responses ($y$) and contexts ($x$), i.e., the forward probability $\log
p(y|x)$ and the backward probability $\log p(x|y)$, has been widely used as the
objective in the \sts model to address the dull-response issue in open-domain
dialog generation. Unfortunately, under the framework of the \sts model, direct
decoding from $\log p(y|x) + \log p(x|y)$ is infeasible since the second part
(i.e., $p(x|y)$) requires the completion of target generation before it can be
computed, and the search space for $y$ is enormous. Empirically, an N-best list
is first generated given $p(y|x)$, and $p(x|y)$ is then used to rerank the
N-best list, which inevitably results in non-globally-optimal solutions. In
this paper, we propose to use non-autoregressive (non-AR) generation model to
address this non-global optimality issue. Since target tokens are generated
independently in non-AR generation, $p(x|y)$ for each target word can be
computed as soon as it's generated, and does not have to wait for the
completion of the whole sequence. This naturally resolves the non-global
optimal issue in decoding. Experimental results demonstrate that the proposed
non-AR strategy produces more diverse, coherent, and appropriate responses,
yielding substantive gains in BLEU scores and in human evaluations.
- Abstract(参考訳): 応答(y$)とコンテキスト(x$)の双方向依存性、すなわち前方確率 $\log p(y|x)$ と後方確率 $\log p(x|y)$ をモデル化するmaximum mutual information (mmi) は、オープンドメインダイアログ生成における鈍い応答問題に対処するために \stsモデルにおいて広く使われている。
残念なことに、 \stsモデルの枠組みの下では、$\log p(y|x) + \log p(x|y)$ からの直接復号は、第2部(すなわち $p(x|y)$)が計算できる前にターゲット生成の完了を必要とするため実現不可能であり、$y$ の検索空間は巨大である。
経験的に、N-bestリストはまず$p(y|x)$と$p(x|y)$で生成され、N-bestリストを再ランクするために使用される。
本稿では,非自己回帰的(非ar)生成モデルを用いて,この非グローバル最適性問題に対処することを提案する。
ターゲットトークンは非ar世代で独立に生成されるため、各ターゲットワードに対して$p(x|y)$ が生成されるとすぐに計算でき、シーケンス全体の完了を待たなくてもよい。
これは、デコードにおける非グローバル最適問題を自然に解決する。
実験の結果,提案する非ar戦略はより多様でコヒーレントで適切な反応を示し,bleuスコアと人間の評価において有意な利益をもたらすことが示された。
関連論文リスト
- Differentially Private Kernel Density Estimation [11.526850085349155]
我々は、カーネル密度推定(KDE)のための洗練された微分プライベート(DP)データ構造を導入する。
類似関数 $f$ とプライベートデータセット $X サブセット mathbbRd$ が与えられた場合、我々のゴールは、任意のクエリ $yinmathbbRd$ に対して、X f(x, y)$ の $sum_x を微分プライベートな方法で近似するように$X$ を前処理することである。
論文 参考訳(メタデータ) (2024-09-03T08:01:19Z) - Distribution-Independent Regression for Generalized Linear Models with
Oblivious Corruptions [49.69852011882769]
一般化線形モデル (GLMs) の重畳雑音の存在下での回帰問題に対する最初のアルゴリズムを示す。
本稿では,この問題に最も一般的な分布非依存設定で対処するアルゴリズムを提案する。
これは、サンプルの半分以上を任意に破損させる難聴ノイズを持つGLMレグレッションに対する最初の新しいアルゴリズムによる結果である。
論文 参考訳(メタデータ) (2023-09-20T21:41:59Z) - Near-Optimal Non-Convex Stochastic Optimization under Generalized
Smoothness [21.865728815935665]
2つの最近の研究は、$O(epsilon-3)$サンプル複雑性を確立し、$O(epsilon)$-定常点を得る。
しかし、どちらも$mathrmploy(epsilon-1)$という大きなバッチサイズを必要とする。
本研究では,STORMアルゴリズムの単純な変種を再検討することにより,従来の2つの問題を同時に解決する。
論文 参考訳(メタデータ) (2023-02-13T00:22:28Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Robust Testing in High-Dimensional Sparse Models [0.0]
2つの異なる観測モデルの下で高次元スパース信号ベクトルのノルムを頑健にテストする問題を考察する。
回帰係数のノルムを確実に検定するアルゴリズムは、少なくとも$n=Omegaleft(min(slog d,1/gamma4)right)サンプルを必要とする。
論文 参考訳(メタデータ) (2022-05-16T07:47:22Z) - Accommodating Picky Customers: Regret Bound and Exploration Complexity
for Multi-Objective Reinforcement Learning [43.75491612671571]
目的と目的のバランスをとる多目的強化学習について、好みを用いて検討する。
我々はこの問題をマルコフ決定過程における叙述的学習問題として定式化する。
モデルに基づくアルゴリズムは、最小限の最小限のリセットを$widetildemathcalObigl(sqrtmind,Scdot H3 SA/epsilon2bigr)$とする。
論文 参考訳(メタデータ) (2020-11-25T21:45:04Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。