論文の概要、ライセンス

# (参考訳) 動的語彙を用いた感情制御対話応答生成モデル [全文訳有]

An Emotion-controlled Dialog Response Generation Model with Dynamic Vocabulary ( http://arxiv.org/abs/2103.02878v1 )

ライセンス: CC BY 4.0
Shuangyong Song, Kexin Wang, Chao Wang, Haiqing Chen, Huan Chen(参考訳) 応答生成タスクでは、適切な感情表現は、応答の人間的様レベルを明らかに改善することができる。 しかし,オンラインシステムにおける実際の応用には,高QPS(オンラインシステムのフローキャパシティの指標)が必要であり,動的語彙機構が生成モデルの高速化に有効であることが証明されている。 本稿では,動的語彙機構に基づく感情制御型対話応答生成モデルを提案し,実験結果から本モデルの有用性が示された。

In response generation task, proper sentimental expressions can obviously improve the human-like level of the responses. However, for real application in online systems, high QPS (queries per second, an indicator of the flow capacity of on-line systems) is required, and a dynamic vocabulary mechanism has been proved available in improving speed of generative models. In this paper, we proposed an emotion-controlled dialog response generation model based on the dynamic vocabulary mechanism, and the experimental results show the benefit of this model.
公開日: Thu, 4 Mar 2021 07:58:43 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 r a M 4 ] L C . 1 2 0 2 r a m 4 ] l c である。 0.79
s c [ 1 v 8 7 8 2 0 . s c [ 1 v 8 7 8 2 0 ] である。 0.78
3 0 1 2 : v i X r a 3 0 1 2 : v i X r a 0.85
An Emotion-controlled Dialog Response Generation Model with Dynamic Vocabulary 感情制御型対話応答 動的語彙を用いた生成モデル 0.77
Shuangyong Song, Kexin Wang, Chao Wang, Haiqing Chen, and Huan Chen {shuangyong.ssy,marc. wkx,chaowang.wc,haiq ing.chenhq,shiwan.ch }@alibaba-inc.com Shuangyong Song, Kexin Wang, Chao Wang, Haiqing Chen, Huan Chen {shuangyong.ssy,marc. wkx,chaowang.wc,haiq ing.chenhq,shiwan.ch }@alibaba-inc.com 0.81
Alibaba Groups, Hangzhou 311121, China Alibaba Groups, Hangzhou 311121, 中国。 0.92
Abstract. In response generation task, proper sentimental expressions can obviously improve the human-like level of the responses. 抽象。 応答生成タスクでは、適切な感情表現は、応答の人間的様レベルを明らかに改善することができる。 0.66
However, for real application in online systems, high QPS (queries per second, an indicator of the flow capacity of on-line systems) is required, and a dynamic vocabulary mechanism has been proved available in improving speed of generative models. しかし,オンラインシステムにおける実際の応用には,高QPS(オンラインシステムのフローキャパシティの指標)が必要であり,動的語彙機構が生成モデルの高速化に有効であることが証明されている。 0.86
In this paper, we proposed an emotion-controlled dialog response generation model based on the dynamic vocabulary mechanism, and the experimental results show the benefit of this model. 本稿では,動的語彙機構に基づく感情制御型対話応答生成モデルを提案し,実験結果から本モデルの有用性が示された。 0.83
Keywords: Response Generation · Emotion Analysis · Generative Model. キーワード: 応答生成 · 感情分析 · 生成モデル。 0.80
Introduction 1 Chatbots aim to provide users multidimensional human-like services such as shopping guide, chitchat and entertainments. はじめに 1 chatbotsは、ショッピングガイド、チットチャット、エンタテインメントなど、多次元的な人間ライクなサービスを提供することを目的としている。 0.52
Those kinds of services can significantly help improve users’ experience and satisfaction. この種のサービスは、ユーザの体験と満足度を大幅に向上させる。 0.70
To create a chatbot capable of communicating with a user at the human level, it is necessary to equip the machine with the ability of perceiving and expressing emotions. 人間のレベルでユーザとコミュニケーションできるチャットボットを作成するには、感情を知覚し表現する能力を備えたマシンを装備する必要がある。 0.74
For expressing appropriate emotions in chatbot responses, we linguistically build emotional mappings between user questions and chatbot responses, and then generate emotional responses with an emotion-controlled text generation model. チャットボット応答に適切な感情を表現するために,ユーザ質問とチャットボット応答の間の感情マッピングを言語的に構築し,感情制御テキスト生成モデルを用いて感情応答を生成する。 0.68
Compared to retrieval-based chatbots, generation-based chatbots can mostly achieve greater coverage, and generate more proper responses that could have never appeared in the corpus. 検索ベースのチャットボットと比較すると、生成ベースのチャットボットは、主により大きなカバレッジを達成でき、コーパスに現れなかった適切なレスポンスを生成することができる。 0.45
However, utilizing response generation model in real online systems has two typical risks: the first one is that the content of generated response is not entirely relevant to the user question, and the second one is that the running speed of response generation models should be further improved to meet the demand of real online systems. しかし、実際のオンラインシステムにおける応答生成モデルの利用には、2つの典型的なリスクがある: 1つは、生成した応答の内容がユーザー問題に完全に関係していないこと、2つ目は、実際のオンラインシステムの需要を満たすために、応答生成モデルの実行速度をさらに改善すべきである。 0.72
In [1], a dynamic vocabulary seq2seq (DVS2S) model has been proposed and it can well solve above two risks, since it can especially eliminate abundant noise words from the generation vocabulary, which benefit both the generation speed and the relevance between responses and questions. [1] では、動的語彙 seq2seq (DVS2S) モデルが提案されており、生成語彙から豊富なノイズワードを排除し、生成速度と応答と問合せの関連性の両方に寄与するので、2つのリスクをうまく解決できる。 0.82
In this paper, we try to realize a dynamic vocabulary based emotion-controlled response generation model, which aims to generate emotional responses with high quality and high speed for our chatbot, an industrial intelligent assistant designed for creating an innovative online shopping experience in E-commerce. 本稿では,eコマースにおける革新的なオンラインショッピング体験を実現するために設計された産業用インテリジェントアシスタントであるchatbotに対して,高品質かつ高速に感情応答を生成することを目的とした,動的語彙に基づく感情制御応答生成モデルの実現を試みる。 0.72
英語(論文から抽出)日本語訳スコア
2 S. Song et al 2 S. Song et al 0.92
2 Our Model Fig. 2 モデル フィギュア。 0.49
1. Model architecture of DV-ERG. 1. DV-ERGのモデルアーキテクチャ 0.84
1) Emotion Mapping between Questions and Responses: We first utilize LEAM (Label-Embedding Attentive Model) [2] model to realize an emotion classification on user questions, and then we linguistically build emotional mappings between questions and responses, such as a mapping from an ‘abusing’ question to an ‘aggrieved’ or ‘regretful’ response. 1) 質問と回答間の感情マッピング: まずLEAM(ラベル埋め込み注意モデル) [2]モデルを用いてユーザの質問に対する感情分類を実現し, 質問と回答間の感情マッピングを言語的に構築する。
訳抜け防止モード: 1)質問と回答の感情マッピング : LEAM(ラベル-埋め込み注意モデル)モデル [2] ユーザの質問に対する感情分類を実現するのです そして言語的に質問と回答の 感情的なマッピングを作ります 例えば、‘abusing ’ 質問から ‘aggrieved ’ や ‘mortful ’ 応答へのマッピングなどです。
0.71
2) Seq2Seq Model Training: For real application in online systems, with high QPS requirement, we just employ typical Bi-GRU (Gated Recurrent Unit) as encoder and GRU [7] as decoder, with an attention mechanism, instead of very complex models. 2) Seq2Seqモデルトレーニング:QPS要求の高いオンラインシステムにおいて、一般的なBi-GRU(Gated Recurrent Unit)をエンコーダとして、GRU[7]をデコーダとして、非常に複雑なモデルではなく注意機構で使用します。 0.80
Employment of typical simple response generation models also shows in other online systems, such as XiaoIce [3]. 典型的な単純な応答生成モデルの雇用は、xiaoice [3]のような他のオンラインシステムでも見られる。 0.66
The objective function is given below, and compared to a normal function, ours is meanwhile supervised by emotional state e (in formula 1). 目的関数は以下に与えられ、通常の関数と比較すると、その一方で感情状態 e (式1) によって監視される。 0.77
In our training dataset, all the (cid:104)Question, Response(cid:105) pairs comply with the above mapping rules, and the e is set according to the emotion types of responses. トレーニングデータセットでは、すべての (cid:104)Question, Response(cid:105) ペアが上記のマッピングルールに従っており、eは反応の感情タイプに応じて設定される。 0.77
In the prediction, e is randomly chosen from candidate mapping emotions of question emotion. 予測では、eは質問感情の候補マッピング感情からランダムに選択される。 0.76
3) Vocabulary Model Training: Words are separated into function words and content words, and the key is to predict the probability distribution P of content words being selected in the decoder step. 3)語彙モデル訓練:単語は機能語と内容語に分けられ、鍵はデコーダステップで選択される内容語の確率分布Pを予測することである。 0.79
We take βI(c) as converter from (cid:104)h, e(cid:105) to P, where the h is the hidden state of the encoder, and the training task is to optimize βI(c). βI(c) を (cid:104)h, e(cid:105) から P への変換子とし、h はエンコーダの隠れ状態であり、トレーニングタスクは βI(c) を最適化する。 0.78
4)Joint Fine-tune: We jointly fine-tune the Seq2Seq model and the vocab- 4)joint fine-tune: we togetherly fine-tune the seq2seq model and the vocab- 0.74
ulary model to further optimize the emotional response generation loss. 感情的な応答の生成の損失を更に最適化するularyモデル。 0.69
英語(論文から抽出)日本語訳スコア
Title Suppressed Due to Excessive Length 過剰な長さによるタイトルの抑制 0.73
3 3 Experiments 1) Dataset collection & Implementation: We collect 132,118 frequently asked emotional user questions from the online log of our commercial chatbot, and manually labeled 1 to 3 corresponding emotional responses to each question. 3 3実験1) データセット収集と実装: 市販チャットボットのオンラインログから頻繁に132,118件の感情的ユーザ質問を収集し、各質問に対して1~3件の感情的反応を手動でラベル付けした。 0.75
Finally we got 308,618 QA pairs as training dataset of the seq2seq model. 最後に、seq2seqモデルのトレーニングデータセットとして308,618のQAペアを得ました。 0.50
In experiments, we use the 300-dimension pre-trained word embeddings, and we set hidden size to 128 both in encoder and decoder, and learning rate to 0.001. 実験では,300次元の事前学習語埋め込みを用い,エンコーダとデコーダの両方で隠れサイズを128に設定し,学習速度を0。 0.76
2) Baselines: We considered the following baselines: 1) S2SA: a standard seq2seq model with an attention mechanism [4]; 2) TA-S2S: the topic-aware seq2seq model proposed in [5]; 3) CVAE: recent work for response generation with a conditional variational auto-encoder [6]; 4) DVS2S: the dynamic vocabulary seq2seq model which allows each input to possess their own vocabulary in decoding [1]. 2) ベースライン: 1) S2SA: 注意メカニズムを備えた標準 seq2seq モデル [4]; 2) TA-S2S: [5]; 3) CVAE: 条件付き可変オートエンコーダ [6]; 4) DVS2S: 各入力がそれぞれ独自の語彙を持つことができる動的語彙 seq2seq モデル。
訳抜け防止モード: 2 ) ベースライン: 1 ) S2SA : 注意メカニズムを備えた標準 seq2seq モデル [4 ] ; 2 ) TA - S2S : トピック - 認識 seq2seq モデル [5 ] ; 3 ) CVAE : 条件付き変分自動エンコーダ [6 ] ; 4 ) DVS2S : 動的語彙 seq2seq モデルによる応答生成に関する最近の研究。 各入力は、デコード [1 ] で独自の語彙を持つことができます。
0.89
With the fine-tune step, we compare 3 different ways: 1) no finetune (NO-ft); 2) just fine-tune the vocabulary model training step (ft-target); 3) fine-tune both Seq2Seq and Vocabulary (ft-both). ファインチューンステップでは、1)ファインチューン(NO-ft)、2)ボキャブラリモデルのトレーニングステップ(ft-target)、3)セック2セックとボキャブラリ(ft-both)の3つの異なる方法を比較します。
訳抜け防止モード: 微調整ステップでは、3つの異なる方法を比較します:1 ) no finetune (NO - ft ) ; 2 ) just fine - tune the vocabulary model training step (ft - target ) ; 3 ) fine - tune Seq2SeqとVocabularyの両方(ft - 両方)。
0.68
Models Baselines モデル ベースライン 0.73
DV-ERG S2SA TAS2S CVAE DVS2S NO-ft ft-target ft-both DV-ERG S2SA TAS2S CVAE DVS2S NO-ft ft-target ft-both 0.53
BLEU-2 Recall VocSize Greedy Average Extreme Distinct1 Distinct2 si-QPS 68 2.79 54 3.05 35 3.02 94 3.21 92 3.38 92 3.83 3.71 92 BLEU-2 Recall VocSize Greedy Average Extreme Distinct1 Distinct2 si-QPS 68 2.79 54 3.05 35 3.02 94 3.21 92 3.38 92 3.83 3.71 92 0.64
94.21 22.10 89.22 34.59 85.55 30.38 93.01 37.77 92.16 38.61 92.16 38.50 90.20 38.70 Table 1. 94.21 22.10 89.22 34.59 85.55 30.38 93.01 37.77 92.16 38.61 92.16 38.50 90.20 38.70 Table 1. 0.46
Evaluation results. 38.80 50K 38.85 50K 40.05 50K 42.11 4K 42.01 4K 4K 41.79 6.8K 41.31 評価結果。 38.80 50K 38.85 50K 40.05 50K 42.11 4K 42.01 4K 4K 41.79 6.8K 41.31 0.57
41.88 43.30 46.22 49.38 48.10 48.15 48.09 41.88 43.30 46.22 49.38 48.10 48.15 48.09 0.43
0.512 0.588 0.587 0.595 0.614 0.605 0.604 0.512 0.588 0.587 0.595 0.614 0.605 0.604 0.43
0.415 0.433 0.428 0.646 0.670 0.655 0.658 0.415 0.433 0.428 0.646 0.670 0.655 0.658 0.43
Input Then wait patiently! 入力 じゃあ 辛抱強く待てよ! 0.66
Bullshit! Sing a song くそっ! 歌を歌う. 0.63
satisfied Target emotion Models Model reply Base My patience NO-ft My patience ft-target Mm-hmm, my little cute ft-both Ok, mine. 満足 target emotion model model reply base my patience no-ft my patience ft-target mm-hmm、私のかわいいft-hmm。 0.80
Base NO-ft ft-target Sorry, I was wrong. NO-ft ft-target Sorry, I was wrong。 0.76
ft-both Oh oh. ft-both、あああ。 0.70
Base Five-star red flag fluttering in the wind, what a resound-ing victory song! ベース五つ星赤い旗が風に飛び散る、なんとリサウンドの勝利歌! 0.74
NO-ft I sing ft-target OK ft-both Sing what? さすがに ft-target OK ft-both Sing? 0.86
I don’t know I don’t know non-emotional 私は知らない。 non‐emotional 0.46
aggrieved aggrieved~ 0.70
Labeled reply Yeah, well, thank you. ラベル付き返信 ええ、まあ、ありがとう。 0.67
You’ve warmed me up! あなたは私を暖めてくれた! 0.83
I’ve done my best. 私は最善を尽くした。 0.65
No need to know Table 2. 知る必要もない 表2。 0.71
Example results of different varieties of proposed DV-ERG. 提案したDV-ERGの異なる品種の例。 0.69
3) Metrics: In this paper, we refer the evaluation metrics used in [1], and further add several metrics: BLEU: Since the questions and answers in our chatbot are almost short, we just consider BLEU-2. 3) メトリクス: 本論文では、[1] で使用される評価指標を参照し、さらにいくつかの指標を追加します。BLEU: チャットボットの質問と回答はほとんど短いため、BLEU-2 を検討します。 0.70
Recall: Only the R@1 metric is relevant in the case of binary classification, which we use here. リコール: ここで使用するバイナリ分類の場合、R@1メトリックのみが関連しています。 0.70
VocSize: the size of the vocabulary. vocsize: 語彙のサイズです。 0.62
si-QPS: maximum QPS that a single model instance can support. si-QPS: 単一のモデルインスタンスがサポートできる最大QPS。 0.86
DISTINCT-1 & DISTINCT-2 Following [1,5], we employ the Distinct1 and Distinct2 to measure how diverse and informative the generated responses are. DISTINCT-1 & DISTINCT-2 [1,5]に続いて、生成した応答の多様性と情報性を測定するためにDistinct1とDistinct2を使用します。 0.61
Besides, 3 embedding-based metrics [8] are used: Greedy, Average, and Extreme. さらに,3つの組込みベースのメトリクス [8] – 欲望,平均,極端さです。 0.68
英語(論文から抽出)日本語訳スコア
4 S. Song et al 4 S. Song et al 0.92
4) Experimental results: Table 1 gives the evaluation results on different metrics, and we can see ft-target gets the best performance on both BLEU and si-QPS (si-QPS as 92 means about 10.87ms per query). 4)実験結果:表1は異なるメトリクスの評価結果を示し、ft-targetがBLEUとsi-QPSの両方で最高のパフォーマンスを得ることがわかります(si-QPSはクエリあたり約10.87msを意味します)。 0.65
For a real online chatbot, those two metrics are more important than other metrics, so we choose ft-target as the final online response generation model in our chatbot - AliMe. 実際のオンラインチャットボットの場合、これらの2つのメトリクスは他のメトリクスよりも重要であるため、チャットボットの最終的なオンライン応答生成モデルとしてft-targetを選択します。 0.52
We qualitatively analyze DV-ERG with some examples from the test data. テストデータからDV-ERGを定性的に分析する。 0.65
Table 2 shows several emotional generation results with our models, we can see that most of the generative results are shorter than manually labeled results, this is a common problem of generative models, since short results are ‘safer’ than long sentences in the model training step. 表2は、私たちのモデルでいくつかの感情生成結果を示しています。生成結果のほとんどは手動でラベル付けされた結果よりも短く、これは生成モデルの一般的な問題です。
訳抜け防止モード: 表2は、我々のモデルでいくつかの感情生成結果を示す。 生成結果のほとんどが 手動でラベル付けされた結果よりも短いことが分かります これは生成モデルに共通する問題です 短い結果は、モデルのトレーニングステップにおける長い文よりも‘安全’です。
0.73
However, with emotional empathy and more focused vocabularies, generative results are sometimes even better than manually labeled results. しかし、感情的な共感とより集中的な語彙では、生成結果は手動でラベル付けされた結果よりもさらに優れています。 0.57
For example, with a user question as ‘Then wait patiently!’, the manually labeled response is ‘Yeah, well, thank you. 例えば、ユーザの質問を’Then wait patiently!’とすると、手動でラベル付けされた応答は‘Yeah, yeah, thank.’だ。 0.82
You’ve warmed me up!’. あなたは私を暖めてくれた! 0.66
This response is with no problem, but it is better when user get the generated response ‘Mm-hmm, my little cute ’ with ft-target DV-ERG. このレスポンスには問題はないが、ユーザが‘Mm-hmm, my little cute ’とft-target DV-ERGを入力すればよい。 0.79
Another example: with a user question as ‘Sing a song’, the manually labeled response is ‘No need to know’, and this is just a so-so response. 別の例: ユーザの質問を‘sing a song’とすると、手動でラベル付けされた応答は‘no need to know’であり、これは単に“so-so response”である。 0.77
This time, the ft-target DV-ERG generate a response as ‘Sing what?’, and this is a more reasonable one. 今回は、ft-target DV-ERGが「Sing what?」というレスポンスを生成します。
訳抜け防止モード: 今回は ft - target DV - ERG が 'Sing What ?' という応答を生成します。 これはより合理的なことです
0.73
4 Conclusion In this paper, we proposed an emotion-controlled response generation model based on the dynamic vocabulary mechanism, which can be practically applied to online chat-bots, considering its experimental efficiency and effectiveness. 4 結論本論文では,オンラインチャットボットに適用可能な動的語彙メカニズムに基づく感情制御応答生成モデルを提案し,その実験効率と有効性を検討した。 0.81
In the future, we will investigate how to apply the emotion analysis technologies and dynamic vocabulary technique to more modules in online chatbots. 将来的には、オンラインチャットボットのより多くのモジュールに感情分析技術と動的語彙技術を適用する方法を検討します。 0.78
References 1. Wu Y, Wu W, Yang D, Xu C, Li Z. Neural Response Generation With Dynamic 参照1。 Wu Y, Wu W, Yang D, Xu C, Li Z. 動的応答によるニューラル応答生成 0.76
Vocabularies. In AAAI 2018, pp. 語彙。 AAAI 2018, pp。 0.63
5594-5601. 5594-5601. 0.71
2. Wang G, Li C, Wang W, et al Joint Embedding of Words and Labels for Text 2. Wang G, Li C, Wang W, et al Joint Embedding of Words and Labels for Text 0.85
Classification. In ACL 2018, pp. 分類。 ACL 2018では、pp。 0.72
2321–2331. 2321–2331. 0.71
3. Shum H-Y, He X, Li D. From Eliza to XiaoIce: challenges and opportunities with 3. Shum H-Y, He X, Li D. from Eliza to XiaoIce : 挑戦と機会 0.87
social chatbots. ソーシャルチャットボット。 0.65
Frontiers of IT & EE 2019(1): 10-26. IT & EE 2019のフロンティア(1): 10-26。 0.83
4. Vinyals, O., and Le, Q. 4. Vinyals、O.、およびLe、Q。 0.83
2015. A neural conversational model. 2015. 神経会話モデル。 0.71
arXiv preprint arXiv プレプリント 0.83
arXiv:1506.05869. arXiv:1506.05869。 0.49
5. Xing, C.; Wu, W.; Wu, Y.; Liu, J.; Huang, Y.; Zhou, M.; and Ma, W.-Y. 5. Xing, C.; Wu, W.; Wu, Y.; Liu, J.; Huang, Y.; Zhou, M.; Ma, W.-Y。 0.84
Topic aware neural response generation. テーマ 神経応答生成の認識。 0.62
In AAAI 2016, pp. AAAI 2016では、pp。 0.70
3351-3357. 3351-3357. 0.71
6. Zhao, T.; Zhao, R.; and Eskenazi, M. Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders. 6. Zhao, T.; Zhao, R.; and Eskenazi, M. Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders 0.87
ACL 2017, pp. ACL 2017, pp。 0.83
654-664. 7. 654-664. 7. 0.78
Cho, K., Merrienboer, B. V., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., Bengio, Y. Cho, K., Merrienboer, B. V., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., Bengio, Y。 0.87
Learning phrase representations using RNN encoder–decoder for statistical ma-chine translation. 統計的マシーン翻訳のためのRNNエンコーダ-デコーダを用いたフレーズ表現の学習 0.61
In EMNLP 2014, pp. EMNLP 2014では、pp。 0.70
1724– 1734. 1724– 1734. 0.94
8. Liu, C-W., Lowe, R., Serban, I., Noseworthy, M., Charlin, L., Pineau, J. 8. Liu, C-W., Lowe, R., Serban, I., Noseworthy, M., Charlin, L., Pineau, J。 0.88
How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation. 対話システムの評価方法:対話応答生成のための教師なし評価指標の実証的研究。 0.65
In EMNLP 2016, pp. EMNLP 2016では、pp。 0.68
2122-2132. 2122-2132. 0.71
         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。