論文の概要、ライセンス

# (参考訳) ロバスト応答ランキングと評価のための対向負反応の合成 [全文訳有]

Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation ( http://arxiv.org/abs/2106.05894v1 )

ライセンス: CC BY 4.0
Prakhar Gupta, Yulia Tsvetkov, Jeffrey P. Bigham(参考訳) オープンドメインニューラルダイアログモデルは、応答のランキングと評価タスクにおいて高い性能を達成した。 これらのタスクは、対話コンテキストで与えられる応答のバイナリ分類として定式化され、モデルは通常、コンテキスト応答の内容の類似性に基づいて予測を学習する。 しかし、コンテンツ類似性への過度な依存は、モデルが不整合、不正確な時間表現、そして応答の適切性や一貫性に重要な要素の存在に敏感になる。 本稿では,コンテンツ類似性を超えた特徴のランキングと評価を支援するために,逆ネガティブトレーニングデータの自動作成手法を提案する。 より堅牢な対話システムをトレーニングするためのネガティブな例を生成するマスク・アンド・フィルとキーワード誘導アプローチを提案する。 これらの生成した逆応答は、文脈と高い内容の類似性を持つが、不整合性、不適切、あるいは流動性がない。 私たちのアプローチは完全にデータ駆動であり、既存のモデルやデータセットに簡単に組み込むことができます。 複数のデータセットにまたがる分類、ランキング、評価タスクの実験により、我々のアプローチは、トレーニング対話システムに有益なネガティブな例を提供する上で、強いベースラインを上回ります。

Open-domain neural dialogue models have achieved high performance in response ranking and evaluation tasks. These tasks are formulated as a binary classification of responses given in a dialogue context, and models generally learn to make predictions based on context-response content similarity. However, over-reliance on content similarity makes the models less sensitive to the presence of inconsistencies, incorrect time expressions and other factors important for response appropriateness and coherence. We propose approaches for automatically creating adversarial negative training data to help ranking and evaluation models learn features beyond content similarity. We propose mask-and-fill and keyword-guided approaches that generate negative examples for training more robust dialogue systems. These generated adversarial responses have high content similarity with the contexts but are either incoherent, inappropriate or not fluent. Our approaches are fully data-driven and can be easily incorporated in existing models and datasets. Experiments on classification, ranking and evaluation tasks across multiple datasets demonstrate that our approaches outperform strong baselines in providing informative negative examples for training dialogue systems.
公開日: Thu, 10 Jun 2021 16:20:55 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Synthesizing Adversarial Negative Responses for Robust Response ロバスト応答に対する対向負反応の合成 0.77
Ranking and Evaluation Prakhar Gupta♣ Yulia Tsvetkov♠ ♣Language Technologies Institute, Carnegie Mellon University ランク付けと評価 カーネギーメロン大学 プラハール・グプタ ユリア・ツヴェトコフ 0.54
Jeffrey P. Bigham♣,♥ ジェフリー・P・ビハメ 0.48
♠Paul G. Allen School of Computer Science & Engineering, University of Washington ワシントン大学コンピュータサイエンス・工学科のポール・G・アレン校 0.74
♥Human-Computer Interaction Institute, Carnegie Mellon University カーネギーメロン大学Human-Computer Interaction Institute 0.76
prakharg@cs.cmu.edu, yuliats@cs.washingto n.edu, jbigham@cs.cmu.edu prakharg@cs.cmu.edu, yuliats@cs.washingto n.edu, jbigham@cs.cmu.edu 0.59
1 2 0 2 n u J 1 2 0 2 n u J 0.85
0 1 ] L C . s c [ 0 1 ]LC。 sc [ 0.60
1 v 4 9 8 5 0 1 v 4 9 8 5 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Open-domain neural dialogue models have achieved high performance in response ranking and evaluation tasks. 概要 オープンドメインニューラルダイアログモデルは、応答のランキングと評価タスクにおいて高い性能を達成した。 0.52
These tasks are formulated as a binary classification of responses given in a dialogue context, and models generally learn to make predictions based on context-response content similarity. これらのタスクは、対話コンテキストで与えられる応答のバイナリ分類として定式化され、モデルは通常、コンテキスト応答の内容の類似性に基づいて予測を学習する。 0.65
However, over-reliance on content similarity makes the models less sensitive to the presence of inconsistencies, incorrect time expressions and other factors important for response appropriateness and coherence. しかし、コンテンツ類似性への過度な依存は、モデルが不整合、不正確な時間表現、そして応答の適切性や一貫性に重要な要素の存在に敏感になる。 0.54
We propose approaches for automatically creating adversarial negative training data to help ranking and evaluation models learn features beyond content similarity. 本稿では,コンテンツ類似性を超えた特徴のランキングと評価を支援するために,逆ネガティブトレーニングデータの自動作成手法を提案する。 0.60
We propose mask-and-fill and keyword-guided approaches that generate negative examples for training more robust dialogue systems. より堅牢な対話システムをトレーニングするためのネガティブな例を生成するマスク・アンド・フィルとキーワード誘導アプローチを提案する。 0.47
These generated adversarial responses have high content similarity with the contexts but are either incoherent, inappropriate or not fluent. これらの生成した逆応答は、文脈と高い内容の類似性を持つが、不整合性、不適切、あるいは流動性がない。
訳抜け防止モード: これら生成した逆応答は、文脈と高い内容類似性を有する 不整合か不整合かのどちらかです
0.57
Our approaches are fully data-driven and can be easily incorporated in existing models and datasets. 私たちのアプローチは完全にデータ駆動であり、既存のモデルやデータセットに簡単に組み込むことができます。 0.58
Experiments on classification, ranking and evaluation tasks across multiple datasets demonstrate that our approaches outperform strong baselines in providing informative negative examples for training dialogue systems.1 複数のデータセットにまたがる分類、ランキング、評価タスクの実験により、我々のアプローチは、トレーニング対話システムに有益なネガティブな例を提供する上で、強いベースラインを上回ります。
訳抜け防止モード: 複数のデータセットにまたがる分類・ランキング・評価タスクの実験 我々のアプローチは 訓練用対話システムに 情報的ネガティブな例を提供する
0.80
1 Introduction Due to growing availability of dialogue corpora (Li et al , 2017; Zhang et al , 2018; Smith et al , 2020) and the advancement of neural architectures (Radford et al , 2019; Brown et al , 2020; Devlin et al , 2019), dialogue systems have achieved considerable success. 1 はじめに 対話コーパス(Li et al , 2017; Zhang et al , 2018; Smith et al , 2020)の増加と神経アーキテクチャ(Radford et al , 2019; Brown et al , 2020; Devlin et al , 2019)により、対話システムは大きな成功を収めた。 0.70
As typically formulated, dialogue models generate one or more candidate responses 典型的には、対話モデルは1つ以上の候補応答を生成する 0.72
1Code //github.com/prakhar guptaz/Adv_gen_ dialogue 1コード //github.com/prakhar guptaz/Adv_gen_ダイアログ 0.46
and data are publicly available https: データと httpsが公開されています 0.66
to a provided context, consisting of past dialogue turns. 過去の対話の旋回からなる 提供された文脈に向けます 0.56
Dialogue ranking (Zhou et al , 2018; Wu et al , 2019) and evaluation models (Tao et al , 2018; Yi et al , 2019; Sato et al , 2020), in turn, are deployed to select and score candidate responses according to coherence and appropriateness. ダイアログランキング(Zhou et al , 2018; Wu et al , 2019)と評価モデル(Tao et al , 2018; Yi et al , 2019; Sato et al , 2020)は、一貫性と適切性に応じて候補回答を選択してスコアする。
訳抜け防止モード: ダイアログランキング (Zhou et al, 2018; Wu et al,) 2019 )および評価モデル(Tao et al, 2018 ; Yi et al, 2019 ; Sato et al, 2020 ) 順番に展開され 一貫性と適切性に応じて 候補者の反応を選定し 得点することです
0.85
Ranking and evaluation models are generally trained using true positive responses and randomly selected negative responses, which raises two issues. ランク付けと評価モデルは通常、真の正の反応とランダムに選択された負の反応を用いて訓練される。 0.63
First, random negative candidates often have low content similarity with the context, and thus models learn to associate response coherence and appropriateness with content similarity (Yuan et al , 2019; Whang et al , 2021; Sai et al , 2020). まず、ランダムなネガティブな候補は文脈とコンテンツの類似度が低く、したがってモデルが応答の一貫性とコンテンツの類似性を関連付けることを学ぶ(yuan et al , 2019; whang et al , 2021; sai et al , 2020)。 0.82
In real systems, generated response candidates tend to be more similar in terms of content, and so other factors (e g , time expressions, dialogue acts, inconsistencies) tend to be more important. 実システムでは、生成された応答候補はコンテンツの観点でより似ている傾向にあり、他の要因(例えば、時間表現、対話行為、不一致)の方がより重要である。 0.71
Second, randomly selecting candidates as negative examples in an open domain context can result in false negatives, leading to misclassification of appropriate responses. 第二に、オープンドメインコンテキストにおける負の例として候補をランダムに選択すると、偽陰性が生じ、適切な応答が誤分類される。 0.64
To make dialogue models more robust to the spurious pattern of content similarity, prior work proposed to leverage adversarial and counterfactual examples (Kaushik et al , 2020; Srivastava et al , 2020). 内容類似性の急激なパターンに対して、対話モデルをより堅牢にするために、敵対的および反ファクト的な例(Kaushik et al , 2020; Srivastava et al , 2020)を活用することを提案した。 0.68
A reliable method for creating counterfactual data is to collect human-written adversarial negative responses (Sai et al , 2020), but it is expensive, time-consuming, and difficult to scale. 反事実データを作成するための信頼性の高い方法は、人間による反対応答(Sai et al , 2020)を収集することであるが、費用がかかり、時間がかかり、スケールが困難である。 0.66
Our goal is to create reliable automatic methods for synthesizing adversarial negative responses. 我々の目標は、対向陰性応答を合成する信頼性の高い自動手法を作ることである。 0.60
The most common approach to generating natural language adversarial examples is to paraphrase or insert typos, synonyms, or words relevant to the context in the inputs (Iyyer et al , 2018; Ebrahimi et al , 2018; Alzantot et al , 2018; Zhang et al , 2019). 自然言語の敵対的な例を生成するための最も一般的なアプローチは、入力中の文脈に関連する語やシノニム、あるいは単語を言い換えたり、挿入することである(Iyyer et al , 2018; Ebrahimi et al , 2018; Alzantot et al , 2018; Zhang et al , 2019)。 0.84
In open domain conversations, however, a context can have a wide range of possible responses with varied forms and semantics. しかし、オープンドメインの会話では、コンテキストは様々なフォームとセマンティクスを持った幅広い応答を持つことができる。 0.75
Small lexical 小語彙 0.53
英語(論文から抽出)日本語訳スコア
C-ent C-time C‐ent C‐time 0.56
C-cont Error category Incorrect entities or actors (R,G) C‐cont エラーカテゴリ 不正なエンティティまたはアクタ(r,g) 0.69
Incorrect Time expressions (R) 不正確な時間表現(R) 0.79
Description Incorrect subject or object of verbs or presence of one or more incorrect entities or coreference. 動詞の不正な主題または対象、または1つ以上の誤った実体またはコアスの存在を記述すること。 0.55
Use of incorrect time expressions or tense of verbs. 不正確な時間表現や動詞の時制の使用。 0.76
Contradictory or details (R,G) 矛盾または詳細(R,G) 0.83
extraneous extraneous~ 0.70
Presence of details which make the response inconsistent within itself or contradict the context 応答を内部で矛盾させる、あるいは文脈を矛盾させる詳細の存在 0.76
C-speaker Incorrect speaker turn (R) cスピーカ 不正確な話者回転(R) 0.64
C-follow C-strat C‐follow C‐strat 0.58
C-lang Does not directly address the context (R,G) Incorrect gies (R,G) Poor (G) C言語 文脈(R,G)不正確なギー(R,G)不規則(G)に直接対応しない 0.65
language strate- The response is relevant to the conversation but from the wrong speaker. 言語 ストレート 応答は会話と関係があるが、間違った話者からである。 0.63
The response does not follow immediately from the context. 応答は文脈からすぐには従わない。 0.63
Use of incorrect dialogue act, emotion, persona or style Presence of poor grammar, incorrect sentence structures or repetitions 不正確な対話行為、感情、ペルソナまたはスタイルの貧弱な文法、誤った文構造または繰り返しの使用 0.71
Sample responses Context: I am so happy that you are doing okay. サンプルレスポンスコンテキスト: あなたがうまくやっていることをとても嬉しく思っています。 0.65
Response: My friend is always happy. 反応:友達はいつも幸せです。 0.81
Context: What are you going to do on Monday? コンテキスト: 月曜日に何をするつもりですか? 0.76
Response: Yesterday, I celebrated my daughter’s wedding anniversary. 反応:昨日、私は娘の結婚記念日を祝った。 0.78
Context: A: I don’t know why I bothered to come here. コンテキスト: A: なぜここに来るのが気になったのか分かりません。 0.73
B: Did you enjoy your stay? B: 滞在は楽しかったですか? 0.77
Response: I enjoyed the concert a lot. 反応:私はそのコンサートを大いに楽しんだ。 0.79
Context: What starting salary would you expect here? コンテキスト: ここではどのような開始給与を期待しますか? 0.58
Response: If you work overtime, I will pay you extra salary. 応答:もしあなたが残業したら、追加の給料を払います。 0.70
Context: What would you like for main course sir? コンテキスト: メインコースで何が欲しいですか? 0.57
Response: I know very well how to make noodles, and I taught one of my friends. 反応:私は麺の作り方をよく知っていますが、友人の一人に教えました。 0.69
Context: I can’t find the paper clips. コンテキスト: 紙クリップは見当たらない。 0.47
Response: Ok, great work. 応答: お疲れさまでした。 0.59
Context: Do you have mixed drinks available here? コンテキスト: 混合飲料はここにありますか? 0.77
Response: Yes. This order is divided by 16 divided for main main ones of order. 応答: はい。 この位階は16等分され、主な位階は16等分される。 0.70
Table 1: Error categories prevalent in inappropriate responses with high context-response semantic relatedness. 表1: 文脈応答性が高い不適切な応答に多いエラーカテゴリ。 0.74
We present 7 categories with their descriptions and sample context and response pairs. それらの記述とサンプルコンテキストと応答ペアで7つのカテゴリを示す。 0.74
For each category we also indicate whether it is frequently observed in Retrieval (R) or Generation (G) models. 各カテゴリについて、Retrieval(R)モデルやGeneration(G)モデルでよく見られるかどうかを示す。 0.72
Models which simply learn to associate response coherence with content similarity often ignore these errors. 応答コヒーレンスとコンテンツ類似性を単純に関連づけることを学ぶモデルは、これらの誤りを無視することが多い。
訳抜け防止モード: 応答コヒーレンスと内容類似性を簡単に関連付けるモデル しばしばこれらの誤りを無視します
0.76
Our approaches create adversarial negative data for training dialogue models by introducing such errors in context relevant utterances. 本研究では,このような誤りを文脈関連発話に導入することにより,対話モデルの訓練のための逆負データを生成する。 0.51
variations via substitutions and paraphrasing do not provide adequate coverage over the possible space of adversarial responses, and they can also lead to generation of false negatives due to the open-ended nature of dialogues. 置換や言い換えによるバリエーションは、敵の反応の可能な空間について十分なカバレッジを提供しておらず、また、対話のオープンな性質によって偽陰性が発生することもある。 0.58
Creating adversarial dialogue responses is thus different, and can be more challenging than in other natural language domains. したがって、反対対話応答の作成は異なるものであり、他の自然言語領域よりも困難である。 0.64
We propose two approaches for adversarial response creation: 1) a mask-and-fill approach that corrupts gold responses related to the context but retains content similarity, and 2) a keyword-guided generative approach that uses concepts from the context to generate topically relevant but incoherent responses. 1) コンテキストに関連した金の応答を損なうがコンテンツの類似性は保持するマスク・アンド・フィルのアプローチ,2) コンテキストの概念を用いて局所的に関連するが一貫性に欠ける応答を生成するキーワード誘導生成アプローチの2つのアプローチを提案する。 0.76
These approaches do not require additional annotations, are black-box (do not need access to model parameters), and are easily adapted to new datasets and domains. これらのアプローチは追加のアノテーションを必要とせず、ブラックボックス(モデルパラメータへのアクセスは不要)であり、新しいデータセットやドメインに容易に適用できる。 0.76
The main contributions of this paper are: 1) We identify and discuss error patterns present in retrieval and generation model outputs, which are difficult to detect due to high content similarity; 2) To the best of our knowledge, we are the first to propose automatic approaches for creating adversarial responses for dialogue model training in a black-box setting; and, 3) We demonstrate that our proposed approaches achieve better performance compared to strong baselines on two datasets on dialogue classification, ranking and evaluation tasks. The main contributions of this paper are: 1) We identify and discuss error patterns present in retrieval and generation model outputs, which are difficult to detect due to high content similarity; 2) To the best of our knowledge, we are the first to propose automatic approaches for creating adversarial responses for dialogue model training in a black-box setting; and, 3) We demonstrate that our proposed approaches achieve better performance compared to strong baselines on two datasets on dialogue classification, ranking and evaluation tasks. 0.91
2 Properties of Adversarial Responses Models trained using randomly sampled negative examples tend to assign high scores to responses with high content similarity with the context, and often ignore other important factors necessary for response appropriateness and coherence. 2 ランダムにサンプルされた負の例を用いて訓練された逆応答モデルの特性は、文脈と高い内容の類似性を持つ応答に高いスコアを割り当てる傾向があり、応答の適切性と一貫性に必要な他の重要な要素を無視することが多い。
訳抜け防止モード: 2 ランダムサンプル負例傾向を用いた逆応答モデルの特性 文脈と高い内容の類似性を持つ応答に高いスコアを割り当てます 応答の適切性や一貫性に必要な他の重要な要素を無視することが多い。
0.76
Therefore, we aim to generate adversarial negative responses which have high content similarity with the context, but which still possess factors rendering the responses inappropriate to the context. そこで本研究では,文脈とコンテンツの類似度が高いが,文脈に不適切な応答を表わす要因を有する敵意的否定応答の生成を目標とする。 0.67
We present the categorization of such factors or error types which can make a response inappropriate in Table 1. 本稿では,表1で応答が不適切となるような要因やエラーの分類について述べる。 0.74
For each category, we provide its description and sample context-response pairs. 各カテゴリについて、その記述とサンプルコンテキスト応答ペアを提供する。 0.68
To create this categorization, we manually analyzed responses present in outputs of generative models, candidates of retrieval sets, and human written adversarial dialogue responses (Sai et al , 2020). この分類を作成するために, 生成モデル, 検索集合の候補, および人文対話応答の出力に存在する応答を手作業で分析した(sai et al, 2020)。 0.84
Categories C-ent, C-time and C-cont are errors related to various inconsistencies and logical flaws in the responses and indicate poor response appropriateness. カテゴリC-ent、C-time、C-contは、応答における様々な矛盾や論理的欠陥に関連するエラーであり、応答の適切性が悪いことを示している。
訳抜け防止モード: カテゴリC-ent、C-time、C-contは、応答における様々な矛盾と論理的欠陥に関連するエラーである 反応の不適切さを示します
0.62
Categories C-speaker, C-follow and C-strat are error types specific to the dialogue setting and indicate poor response coherence. C-speaker、C-follow、C-stratは、対話設定に特有のエラータイプであり、応答コヒーレンスが悪いことを示す。 0.57
Category C-lang indicates poor response fluency. カテゴリーC言語は反応頻度が低いことを示す。 0.44
Our categorization of errors is inspired by the categorization suggested by Pagnoni et al (2021) for factuality of summarization, and Higashinaka et al (2019); Ko et al 誤りの分類は,Pagnoni et al (2021)による要約の事実の分類と東中 et al (2019), Ko et al にヒントを得たものである。 0.76
英語(論文から抽出)日本語訳スコア
(2019) and Sato et al (2020) for dialogue. (2019年)と佐藤ら(2020年)との対話。 0.79
These categories inform our approaches as well as error analysis. これらのカテゴリは、我々のアプローチとエラー解析を知らせます。 0.63
3 Methodology For a given dialogue context C and its gold response Rg, our goal is to generate an adversarial response Ra such that while achieving high scores from dialogue ranking or evaluation models, it should not be a valid response to the context C. Dialogue ranking and evaluation models trained with such hard synthetic negative responses should learn to associate response relevance with features beyond content similarity, and hence become robust against spurious features. 3 方法論 与えられた対話コンテキストcとそのゴールドレスポンスrgに対して,対話のランク付けや評価モデルから高いスコアを得る一方で,文脈cに対する有効な応答とはならないような,敵対的応答raを生成することを目標としている。
訳抜け防止モード: 3 方法論 与えられた対話コンテキスト C とそのゴールド応答 Rg について。 私たちのゴールは、このような敵の反応Raを生成することです。 対話のランキングや評価モデルから高いスコアを得る 文脈Cに対する有効な応答であってはなりません。 そして、このような厳しい合成陰性反応で訓練された評価モデルは、コンテンツ類似性を超えた特徴と応答関係を関連づけることを学ぶべきです。 そのため、急激な機能に対して堅牢になる。
0.69
The adversarial responses should satisfy the following criteria: 1) have high content similarity with input contexts; 2) have one or more errors (Table 1) which make the response inappropriate to the context; 3) be hard training examples, that is, they should likely be misclassified by current models as correct; and 4) sufficiently cover errors which occur naturally in model generated responses and retrieval candidates, and therefore they should be plausible and diverse. 1) 入力コンテキストとコンテンツの類似度が高いこと,2) 応答をコンテキストに不適当にする1つ以上のエラー(表1) ; 3) ハードトレーニングの例,すなわち,現在のモデルで正しく分類されていない可能性が高いこと,4) モデル生成の応答と検索候補に自然に発生するエラーを十分にカバーすること,そして,それらは多様で多様であること。 0.73
We propose two approaches for synthesizing adversarial negative examplesa mask-and-fill approach and a keyword-guided generation approach which we discuss next. 本稿では, 対向否定例をマスク・アンド・フィルで合成する2つの手法と, 次に議論するキーワード誘導生成手法を提案する。
訳抜け防止モード: 我々は2つのアプローチを提案する。 次に論じる対向負例マスクの合成 - 補充アプローチとキーワード- 誘導生成アプローチ
0.64
3.1 Mask-and-fill Approach This approach modifies and corrupts original utterances related to a context as shown in Figure 1. 3.1 マスク・アンド・フィルアプローチ このアプローチは、図1に示すように、コンテキストに関連する元の発話を修正・破損する。 0.51
It consists of two steps: 1) masking, where one or more tokens of an original utterance are masked out; and 2) infilling, where the masked out tokens are substituted with new tokens. 1)マスキング、(1)元の発話の1つ以上のトークンをマスクアウトする、(2)新しいトークンをマスクアウトする、という2つのステップから構成される。
訳抜け防止モード: 2つのステップからなる: 1 ) マスク。 元の発話の1つ以上のトークンがマスクアウトされる ; and 2 ) infilling, where マスクされたトークンは 新しいトークンで代用されます
0.73
For a context C, the set of original utterances consists of: • Set of ground truth responses of the context - Rg. 文脈 c に対して、元の発話のセットは、 • コンテキストの基底真理応答のセット - rg から成り立っている。 0.64
• Set of utterances from the context - Uc. • 文脈からの発話のセット - Uc。 0.66
• Set of retrieved responses based on context - Re. • コンテキストに基づいた検索されたレスポンスのセット - Re。 0.71
Masking: We use the hierarchical masking function from Donahue et al (2020) which selectively masks spans at the granularities of words, n-grams, and sentences. Masking: Donahue et al (2020) の階層型マスキング関数を用いて,単語,n-gram,文の粒度を選択的にマスキングする。 0.77
We apply the masking function to each utterance multiple times to get up to 3 masked versions per utterance. マスキング関数を各発話に複数回適用し,マスキング毎に最大3つのマスキングバージョンを得る。 0.71
Each utterance is constrained to have at least two masked spans. 各発話は、少なくとも2つのマスクスパンを有するように制限される。 0.51
The spans are selected randomly for masking following Donahue et al (2020). スパンはdonahue et al (2020)に続くマスキングのためにランダムに選択される。 0.67
Infilling: We extend the Infilling Language Model (ILM) from Donahue et al (2020) for dialogue Infilling: 対話のためのinfilling Language Model (ILM) を Donahue et al (2020) から拡張する 0.84
Figure 1: Mask-and-fill approach using ILM model. 図1: ILMモデルを用いたマスクアンドフィルアプローチ。 0.74
ILM is trained to infill n-grams in place of blanks in a response. ILMは応答中の空白の代わりにn-gramを注入するように訓練されている。 0.55
Tokens after [infill] replace the [blank] tokens. トークンを[埋め込んだ]後のトークン. 0.45
During training, Mask-and-fill learns to infill responses conditioned on the correct context. トレーニング中、Mask-and-fillは正しいコンテキストで条件付けられた応答を埋めることを学ぶ。 0.49
During testing, it infills the response conditioned on a random context which introduces errors in the response. テスト中に、ランダムなコンテキストで条件付けされた応答条件を満たし、応答にエラーが生じる。 0.63
response infilling (Figure 1). response infilling (Figure 1) 0.69
The ILM model is a GPT-2 (Radford et al , 2019) based language model. ILMモデルはGPT-2(Radford et al , 2019)ベースの言語モデルである。 0.92
For any piece of text t with some spans masked with [blank] tokens, it is trained to predict the blanked spans in t as a sequence generation problem. トークンが隠されたスパンのある任意のテキストtに対して、シーケンス生成問題としてtの空白スパンを予測するように訓練されている。 0.63
Each blank is infilled with an n-gram which can consist of one or more tokens. 各空白は1つ以上のトークンから成るn-gramで埋められる。 0.64
For generating adversarial responses, infilling is done by conditioning on random contexts Crand instead of the original context C to introduce various categories of errors (Table 1). 逆応答を生成するために、インフィルは、元のコンテキストCの代わりにランダムコンテキストCを条件付けして、様々なエラーカテゴリを導入する(表1)。 0.67
For example in Figure 1, conditioning on a random context leads to the infilling of “the marriage” in the response, introducing error of type C-ent. 例えば、図1では、ランダムなコンテキストで条件付けすると、応答に"the marriage"が入り込み、タイプc-entのエラーが発生します。 0.64
For the context “Did you stay your stay at our hotel?” it generates a response “I enjoyed at lot at the marriage”. did you stay your stay at our hotel?”という文脈では,“私は結婚を大いに楽しんだ”という反応が生まれます。 0.75
By corrupting the three types of utterances Rg, Uc and Re, this approach is able to introduce errors covering the 7 categories in Table 1. Rg、Uc、Reの3種類の発話を破損させることで、この手法はテーブル1の7つのカテゴリをカバーするエラーを導入することができる。 0.70
Preventing false negatives: Accidentally incorporating false negatives during training can lead to the model learning to misclassify appropriate responses. 偽陰性を防ぐ: トレーニング中に誤って偽陰性を導入すると、適切な応答を誤分類するモデル学習につながる可能性がある。
訳抜け防止モード: 偽陰性防止 : 訓練中に誤認を生じた場合, 適切な反応を誤分類するモデル学習につながる可能性がある。
0.71
However due to the open-ended nature of dialogue responses, preventing generation of false negatives is not trivial. しかし、対話応答の開放的な性質から、偽陰性の発生を防ぐことは自明ではない。 0.63
In addition to conditioning on random contexts, we incorporate the following mechanisms during infilling to further reduce false negative generation: • Semantics of substitution: We only select token substitutions which were not present in the tokens which were blanked. ランダムな文脈の条件付けに加えて、入力中に次のメカニズムを組み込んで偽陰性生成をさらに減少させる: • 置換の意味論: 空白のトークンに存在しないトークン置換のみを選択する。 0.74
We also lower the generation probability of the blanked tokens’ top 10 related words based on GloVe embedding (Pennington et al , 2014) similarity by a factor of 100. また,GloVe埋め込み(Pennington et al , 2014)の類似性に基づいて,空白トークンのトップ10関連単語の生成確率を100倍に下げる。 0.71
This ensures that the blanks are not infilled by the originally blanked tokens or any related words. これにより、空白が元々空白のトークンや関連する単語に満たされないことが保証される。 0.64
• Degree of substitution - To ensure that the gen- •置換の程度-元が確実に 0.52
英語(論文から抽出)日本語訳スコア
Figure 2: Keyword-guided approach for adversarial response generation. 図2: 逆応答生成のためのキーワード誘導アプローチ 0.75
During training, the model learns to generate a response conditioned on its keywords and the correct context. トレーニング中、モデルはキーワードと正しいコンテキストに基づいて応答条件を生成することを学習する。 0.74
During testing, it generates the response conditioned on a random context and keywords extracted from the correct context. テスト中は、ランダムなコンテキストと正しいコンテキストから抽出されたキーワードに基づいて応答条件を生成する。 0.66
The generated response thus shares content with the test context but does not directly address the context. 生成されたレスポンスは、テストコンテキストとコンテンツを共有するが、直接コンテキストに対処しない。 0.64
erated negative response is sufficiently different from the original utterance, we filter out the original utterance if the number of words in the utterance after stop-word removal is less than 2. 消去された否定応答は、元の発話と十分に異なるため、停止語除去後の発話中の単語数が2未満であれば、元の発話をフィルタリングする。 0.64
We also filter a generated response if the difference in count of non stop-words between the original and generated response is less than 2. また、元の応答と生成された応答の非停止語数の差が2未満であれば、生成された応答もフィルタする。 0.67
Improving fluency: The ILM model often generates responses with poor grammar or structure. ILMモデルは、しばしば文法や構造に乏しい応答を生成する。 0.61
To improve the fluency of the adversarial response sets, we first generate up to 4 different infilled variations of the masked original utterances, then score them using a GPT-2 based scorer named lm-scorer2. 対向応答セットの流速を改善するために,まず,マスク付き発声の最大4種類の変種を生成し,その後,lm-scorer2というGPT-2ベースのスコアラーを用いてスコアリングを行った。 0.65
We then select the desired number of responses from this larger set. 次に、このより大きな集合から所望の応答数を選択する。 0.74
3.2 Keyword-guided Approach This approach generates adversarial responses using keywords from the context as guidance, as shown in Figure 2. 3.2 キーワード誘導アプローチ このアプローチは、図2に示すように、コンテキストからキーワードをガイダンスとして生成する。 0.69
The base generative architecture is a GPT-2 based dialogue model and it is trained to generate responses conditioned on the context and the response keywords. 基本生成アーキテクチャはGPT-2ベースの対話モデルであり、文脈と応答キーワードに基づいて条件付き応答を生成するよう訓練されている。 0.71
For adversarial response generation, the generation is conditioned on a random context Crand and keywords from the test context C. In Figure 2, for the context “How long did it take you to get your license?” it generates a response “We will bring our license and documents.” To create the keyword set K for a response, the model selects n number of keywords randomly from the set of all keywords extracted from the context C, where n is chosen randomly between 1 to 3 for every context. 逆応答生成では、生成はランダムなコンテキストクランドとテストコンテキストCからのキーワードに条件付けされる。 図2では、「ライセンスを取得するのにどのくらいかかったか?」というコンテキストに対して、"我々はライセンスとドキュメントを入手する"という応答を生成する。"レスポンスのためのキーワードセットKを作成するために、モデルは、コンテキストCから抽出されたすべてのキーワードのセットから、ランダムにn個のキーワードを選択し、nはコンテキスト毎に1から3までランダムに選択される。 0.69
Keyword extraction is performed using Rake (Rose et al , 2010). Rake(Rose et al , 2010)を用いてキーワード抽出を行う。 0.77
2https://github.com/ simonepri/ 2https://github.com/ simonepri/ 0.39
lm-scorer We call this model Key-context. lm‐scorer このモデルをキーコンテキストと呼んでいます。 0.54
Since the generation is conditioned on keywords from context C, the generated response shares some content and semantics with the test context. 生成はコンテキストCからキーワードに条件付けされるので、生成されたレスポンスはテストコンテキストといくつかのコンテンツとセマンティクスを共有する。 0.60
However, since it is also conditioned on a random context Crand, the generated response also incorporates entities, time expressions, speaker role, dialogue act, and other details based on Crand. しかし、ランダムなコンテキストcrandにも条件があるため、生成されたレスポンスにはエンティティ、時間表現、話者の役割、対話行為、その他のcrandに基づく詳細が含まれている。 0.68
Since the generation model is not perfect, it also introduces errors related to fluency. 生成モデルは完璧ではないため、フラレンシに関連するエラーも導入する。 0.71
Hence, the model is able to introduce errors covering the 7 categories in Table 1. したがって、このモデルはテーブル1の7つのカテゴリをカバーするエラーを導入することができる。
訳抜け防止モード: それゆえ モデルは 表1の7つのカテゴリをカバーするエラーを導入する。
0.77
Key-context only uses keywords from the context to induce content similarity with the context. key-contextはコンテキストからのキーワードのみを使用して、コンテキストとコンテンツの類似性を誘導する。 0.60
However, responses can have high content similarity due to the presence of similar concepts rather than just keywords. しかし、応答はキーワードだけでなく類似した概念が存在するため、コンテンツの類似度が高い。 0.73
To introduce content similarity at concept level, we expand the keyword set K with their top 10 most related words based on their GloVe embeddings. 概念レベルでコンテンツの類似性を導入するために、キーワード集合 k をグローブ埋め込みに基づいて最も関連性の高い単語トップ10に拡張する。 0.72
We use the gensim library3 to find the most related words. gensimライブラリ3を使って、最も関連する単語を見つけます。 0.77
For example, the related words for the keyword “christmas” are “holidays” and “easter”. 例えば、”christmas” というキーワードの関連語は “holidays” と “easter” である。 0.82
We replace a keyword in keyword set K with one of its related words with a probability of 0.5. キーワード集合 k のキーワードをその関連単語の1つに 0.5 の確率で置き換える。 0.83
We call this variant Key-sem. この変種をキーセムと呼ぶ。 0.58
3.3 Classification Model Our classification model architecture is based on the Speaker-Aware Bert (SA-Bert) model (Gu et al , 2020). 3.3分類モデル 我々の分類モデルアーキテクチャは、話者認識ベルト(SA-Bert)モデル(Gu et al , 2020)に基づいている。 0.75
Given a dialogue context C = {C1, C2, . 対話コンテキストC = {C1, C2, が与えられる。 0.76
. . , Ch} with Ck denoting kth utterance in the context, a response r and a label y ∈ {0, 1}, the goal of the dialogue model M is to learn a score s(C, r) by minimizing cross-entropy loss function for the binary classification task. . . Ck が k 番目の発話を示す文脈で、応答 r とラベル y ∈ {0, 1} を持つ場合、対話モデル M の目標は、二項分類タスクのクロスエントロピー損失関数を最小化してスコア s(C, r) を学ぶことである。 0.82
To calculate s(C, r), C and r are concatenated, with a prepended [CLS] token. s(c, r) を計算するには、c と r を[cls]トークンで連結する。 0.66
The output vector E[CLS] ∈ RH for the [CLS] token is used as the aggregated representation for the context-response pair classification. cls]トークンに対する出力ベクトル e[cls] ∈ rh は、文脈-応答対の分類の集約表現として用いられる。 0.66
The final prediction is made as ˆy = sof tmax(WE[CLS]), where W ∈ R2×H. 最終的な予測は、W ∈ R2×H に対して yy = sof tmax(WE[CLS]) となる。 0.86
SA-Bert model incorporates speaker information in two ways. SA-Bertモデルは、話者情報を2つの方法で組み込む。 0.56
First, an additional speaker embedding is added to the token representations which indicates the speaker’s identity for each utterance. まず、各発話に対する話者のアイデンティティを示すトークン表現に、追加の話者埋め込みを追加する。 0.58
Second, a [EOT] token is added at the end of each speaker turn. 次に、各話者ターンの最後に[EOT]トークンが追加されます。 0.64
Before fine-tuning Bert model on the classification task, we first adapt Bert to the dataset by using the standard masked language model objective (Devlin et al , 2019). 分類タスクでBertモデルを微調整する前に、標準のマスキング言語モデル目標(Devlin et al , 2019)を使用して、Bertをデータセットに適応させます。 0.68
3https://radimrehure k.com/gensim/ 3https://radimrehure k.com/gensim/ 0.39
Training[context][keywords][response]How long did it take you to get your license?month [sep] license It took me 1 month to get the licenseTesting[context][keywords][response]We should visit the park today.licenseWe will bring our license and documents. トレーニング[context][keywords][response] ライセンスを取得するのにどのくらいかかりましたか? month [sep] ライセンスを取得するのに1ヶ月かかりました。
訳抜け防止モード: Training[context][keywords][response]ライセンスを取得するのにどのくらいかかりましたか? to get the licenseTesting[context][keywords][response]私たちは公園に行くべきです 本日.licenseライセンスとドキュメントを公開します。
0.66
英語(論文から抽出)日本語訳スコア
4 Experiments We test our approaches and baselines on dialogue classification, ranking and evaluation tasks. 4つの実験 我々は,対話の分類,ランキング,評価の課題に対するアプローチとベースラインをテストする。 0.70
the base-uncased checkpoints ベース未使用のチェックポイント 0.51
4.1 Training Details We use for BERT (Devlin et al , 2019) and ELECTRA (Clark et al , 2020) from the Hugging Face transformers library (Wolf et al , 2020). 4.1 トレーニング詳細 BERT (Devlin et al , 2019) と ELECTRA (Clark et al , 2020) のHugging Face Transformers Library (Wolf et al , 2020) に使用。 0.77
We trained the models with maximum sequence length of 128, maximum number of training epochs set to 3, Adam optimizer with initial learning rate of 5e-5 with linear decay, batch size of 60 per GPU on machines with 4 Nvidia 2080Ti GPUs. 最大シーケンス長128,最大トレーニングエポック数3,adam optimizerの初期学習速度5e-5,線形減衰,バッチサイズ60/gpuのモデルを,nvidia 2080ti gpu4台でトレーニングした。
訳抜け防止モード: 最大シーケンス長128,最大トレーニング回数を3に設定したモデルをトレーニングした。 線形減衰を伴う5e-5初期学習速度を持つadamオプティマイザ バッチサイズはnvidia 2080ti gpu 4台のマシンで1gpuあたり60。
0.74
For generation, we use temperature of 0.9, nucleus sampling with p equal to 0.9 and minimum length of 5. 生成には 0.9 の温度、p の核サンプリングは 0.9 の温度、5 の最小長を用いる。 0.84
We repeat each experiment three times (five times for BERT-based models) with different random seeds, use the validation split to select the best model, and report the mean metric values. 我々は,各実験を3回(BERTベースのモデルでは5回)異なるランダムシードで繰り返し,バリデーションスプリットを使用して最適なモデルを選択し,平均メトリック値を報告する。 0.78
Validation was done every 200 batches. 検証は200バッチ毎に行われる。 0.63
4.2 Experimental Setup 4.2.1 Datasets We use two open-domain dialogue datasets: DailyDialog++ (Sai et al , 2020) and PersonaChat (Zhang et al , 2018). 4.2 実験的セットアップ 4.2.1 データセット DailyDialog++ (Sai et al , 2020) と PersonaChat (Zhang et al , 2018) の2つのオープンドメイン対話データセットを使用する。 0.68
DailyDialog++ consists of 16900 dialogue contexts in train set, 1028 in validation set and 1142 in the test set. dailydialog++は16900の対話コンテキストからなり、検証セットは1028、テストセットは1142である。 0.69
Each context contains 5 positive responses and 5 random negative responses. 各文脈は5つの正の応答と5つのランダムな負の応答を含む。 0.58
It also contains 5 adversarial responses per context collected through crowdsourcing where annotators were instructed to create negative responses with high content similarity with the context. また、クラウドソーシングを通じて収集されたコンテキスト毎に5つの逆応答が含まれており、アノテータはコンテキストと高いコンテンツ類似性を持つ負の応答を生成するように指示された。 0.44
A subset of 9259 out of the 16900 training contexts have 5 human-written adversarial negative responses. 16900の訓練文脈のうち9259のサブセットは、5人の人間による反対反応を持つ。 0.72
It has two test sets, adversarial test set and random test set, based on the type of the negative response. 負の応答のタイプに基づいて、逆テストセットとランダムテストセットの2つのテストセットを持つ。 0.73
PersonaChat dataset (Zhang et al , 2018) is a corpus of human-human personaconditioned conversations consisting of 8938 dialogues in the train set. PersonaChat データセット (Zhang et al , 2018) は、列車内の8938の対話からなる人間と人間の対人関係の会話コーパスである。 0.79
We sample 2 random context-response pairs from each dialogue with a total of 17876 contexts for training. 各対話からランダムな文脈応答対を2つサンプリングし,合計17876個のコンテキストをトレーニングした。 0.61
We prepend the persona utterances to the dialogue contexts in our experiments. 実験では,対話の文脈にペルソナ発話を強調した。 0.62
Since there is no human-created adversarial test set available for PersonaChat dataset, we construct an artificial adversarial dataset by randomly selecting an utterance from the dialog context and inserting it in the set of candidate responses following Jia and Liang (2017) and Whang et al PersonaChatデータセットに人為的な逆数テストセットが存在しないため、対話コンテキストから発話をランダムに選択し、Jia and Liang (2017) と Whang et al に続く候補応答のセットに挿入することで、人工逆数データセットを構築する。 0.76
(2021). The adversarial test set for each context consists of the ground truth response, one utterance selected from the dialog context, and 8 random negative responses. (2021). 各コンテキストの逆テストセットは、基底真理応答と、対話コンテキストから選択された1つの発話と、8つのランダムな否定応答からなる。 0.77
The random test set consists of 9 random negative responses. ランダムテストセットは、9つのランダムな負の応答からなる。 0.71
4.2.2 Metrics For classification task, we report the accuracy following (Sai et al , 2020). 4.2.2 Metrics 分類タスクでは,以下の精度を報告する(Sai et al , 2020)。 0.78
For ranking task, we report standard ranking metrics - Recall Rn@k and mean reciprocal rank (MRR). ランキングタスクについては、標準ランキングメトリクスを報告します - rn@k と mean reciprocal rank (mrr) を思い出してください。 0.58
For DailyDialog++, n is 6 in Recall as candidates consist of one positive response with 5 negative responses. dailydialog++では、nは6回リコールされ、候補は1つの正の応答と5つの負の応答からなる。 0.58
For PersonaChat, n is 10. PersonaChatの場合、nは10です。 0.82
For both classification and ranking tasks, we report results separately for the adversarial and the random test sets. 分類とランク付けのタスクのどちらにおいても,逆テストセットとランダムテストセットで結果が別々に報告される。 0.62
The dialogue evaluation task comprises of scoring or rating a response for its quality. 対話評価タスクは、その品質に対する応答をスコア付けまたは評価する。 0.72
For this task, we report the correlation of model scores with human provided ratings. 本研究では,モデルスコアと人為的評価との相関について報告する。 0.72
We leverage the human ratings released by the following sources: 1) 600 ratings for response “sensibility” from (Zhao and Kawahara, 2020) with inter-rater agreement > 0.6 (Krippendorff’s α (Krippendorff, 2018)). 1) (zhao and kawahara, 2020) からの応答「感性」に対する600の格付けと, 0.6 (krippendorff's α (krippendorff, 2018) 間の格付けを活用した。
訳抜け防止モード: 我々は, (zhao and kawahara,) からの反応「感性」に対して, 1 ) 600 評価の人間評価を活用した。 2020年) inter-rater agreement > 0.6 (krippendorff の α (krippendorff, 2018年)。
0.79
The responses consist of outputs from hierarchical recurrent encoder decoder (HRED) model with Attention (Serban et al , 2016) and Variational HRED model with attention (Serban et al , 2017); 2) 700 ratings for response quality from (Zhao et al , 2020). 応答は、注意を伴う階層的再帰エンコーダデコーダ(HRED)モデル(Serban et al , 2016)と注意を伴う変動型HREDモデル(Serban et al , 2017)から出力され、応答品質に対する700のレーティング(Zhao et al , 2020)で構成されている。 0.83
The responses are from 6 different generative models - Seq-2-Seq (Sutskever et al , 2014), attentional Seq-2-Seq, HRED, VHRED, GPT2-small, and GPT2-medium (Wolf et al , 2019) with greedy decoding, ancestral sampling, and nucleus sampling based decoding (Holtzman et al , 2020). Seq-2-Seq (Sutskever et al , 2014), attentional Seq-2-Seq, HRED, VHRED, GPT2-small, and GPT2-medium (Wolf et al , 2019), with greedy decoding, ancestral sample, and nucleus sample based decoding (Holtzman et al , 2020)。 0.80
The inter-rater agreement is 0.815 (Krippendorff’s α), and 3) Since the first two sources do not cover retrieval model outputs, we additionally collect quality ratings for 100 responses from a retrieval model’s (Poly-Encoder (Humeau et al , 2020)) selected responses and 100 human written responses with moderate inter-annotator agreement (Cohen’s Kappa 0.45 (Cohen, 1968)). 層間合意は0.815(クリッペンドルフのα)、そして 3) 最初の2つの情報源は、検索モデルの出力をカバーしていないため、検索モデルの選択された応答(Poly-Encoder (Humeau et al , 2020))から100の応答に対する品質評価(Cohen's Kappa 0.45 (Cohen, 1968))を収集する。 0.72
All data points belong to the Dailydialog dataset and ratings are scaled between 0–1. すべてのデータポイントはDailydialogデータセットに属し、評価は0-1でスケールされる。 0.67
By combining these sources we have a total of 1500 ratings for different context-response pairs. これらのソースを組み合わせることで、異なるコンテキスト-レスポンスペアの合計1500のレーティングが得られる。 0.57
4.2.3 Baselines We compare the following approaches of creating adversarial negative response sets. 4.2.3 ベースライン 敵負の応答集合を生成する次のアプローチを比較する。 0.65
英語(論文から抽出)日本語訳スコア
Model Approach Poly-encoder モデル アプローチ ポリエンコーダ 0.74
Electra Bert Random Mask-and-fill (Ours) Key-sem (Ours) Human Random Mask-and-fill (Ours) Key-sem (Ours) Human Random Semi-hard (Li et al , 2019) Token-subs (Kryscinski et al , 2020) BM25 (Karpukhin et al , 2020) Mask-and-fill (Ours) Key-context (Ours) Key-sem (Ours) Human (Sai et al , 2020) エレクトラ バート Random Mask-and-fill (Ours) Key-sem (Ours) Human Random Mask-and-fill (Ours) Key-sem (Ours) Human Random Semi-hard (Li et al , 2019) Token-subs (Kryscinski et al , 2020) BM25 (Krpukhin et al , 2020) Mask-and-fill (Ours) Key-context (Ours) Key-sem (Ours) Human (Sai et al , 2020) 0.67
- 77.74 87.24 86.24 91.94 77.82 79.05 77.23 84.42 87.45 86.23 87.02 91.22 - 77.74 87.24 86.24 91.94 77.82 79.05 77.23 84.42 87.45 86.23 87.02 91.22 0.63
Adversarial test set Random test set 対訳 テストセット ランダムテストセット 0.67
Accuracy - R@1 MRR Accuracy 0.684 0.758 0.788 0.847 0.915 0.945 0.951 0.984 0.906 0.913 0.901 0.936 0.946 0.939 0.944 0.987 精度 - R@1 MRR Accuracy 0.684 0.758 0.788 0.847 0.915 0.945 0.951 0.984 0.906 0.913 0.901 0.936 0.946 0.939 0.944 0.987 0.70
0.806 0.856 0.877 0.913 0.748 0.893 0.881 0.967 0.742 0.756 0.783 0.872 0.904 0.891 0.897 0.973 0.806 0.856 0.877 0.913 0.748 0.893 0.881 0.967 0.742 0.756 0.783 0.872 0.904 0.891 0.897 0.973 0.41
89.58 89.61 89.47 87.95 89.34 89.32 88.60 87.68 88.32 88.16 89.31 88.04 89.58 89.61 89.47 87.95 89.34 89.32 88.60 87.68 88.32 88.16 89.31 88.04 0.41
R@1 MRR 0.914 0.849 0.897 0.821 0.902 0.828 0.902 0.831 0.927 0.957 0.927 0.959 0.924 0.957 0.911 0.944 0.923 0.959 0.923 0.956 0.906 0.950 0.902 0.948 0.918 0.951 0.922 0.953 0.954 0.916 0.901 0.943 R@1 MRR 0.914 0.849 0.897 0.821 0.902 0.828 0.902 0.831 0.927 0.957 0.927 0.959 0.924 0.957 0.911 0.944 0.923 0.959 0.923 0.956 0.906 0.950 0.902 0.948 0.918 0.951 0.922 0.953 0.954 0.916 0.901 0.943 0.43
Table 2: Performance on classification and ranking tasks on DailyDialog++ test sets. 表2: DailyDialog++テストセットの分類とランキングタスクのパフォーマンス。 0.85
Mask-and-fill and Key-sem approaches consistently perform the best across all model architectures compared to baselines on the Adversarial test set, just short of models trained with human created adversarial data. マスク・アンド・フィル(英語版)とキー・セム(英語版)のアプローチは、人間が作成した逆データで訓練されたモデルよりも、逆テストセットのベースラインと比較して、すべてのモデルアーキテクチャにおいて一貫してベストを尽くす。
訳抜け防止モード: Mask - and-fill and Key - semアプローチは、Adversarialテストセットのベースラインと比較して、すべてのモデルアーキテクチャで一貫してベストを尽くします。 人によって訓練された モデルにすぎません
0.53
Poly-encoder’s accuracy is not available as it ranks candidates relative to each other. poly-encoderの精度は、互いに相対的に候補をランク付けするため、利用できない。 0.67
Human (Sai et al , 2020) Human written adversarial responses. human (sai et al , 2020) 人文的敵意。 0.58
Random Responses sampled from random contexts. ランダム応答はランダムコンテキストからサンプリングされる。 0.64
Semi-hard (Li et al , 2019) Sampling scheme which selects samples from a batch based on their similarity scores with a margin of α from the positive response score. 半ハード(li et al , 2019)サンプリングスキームは、正の応答スコアからαのマージンを持つ類似度スコアに基づいて、バッチからサンプルを選択する。 0.69
We perform static sampling and use Sentence-Bert (Reimers and Gurevych, 2019) for semantic similarity calculation with α set to the recommended value of 0.07. 静的サンプリングを行い、Sentence-Bert (Reimers and Gurevych, 2019) を用いて α を推奨値 0.07 に設定した意味的類似性計算を行う。 0.79
Token-subs (Kryscinski et al , 2020) Training data is generated by applying a series of rule-based transformations on the positive responses. Token-subs (Kryscinski et al , 2020) 正の反応に一連の規則に基づく変換を適用することでトレーニングデータを生成する。 0.75
Transformations include pronoun, entity and number swapping, sentence negation and noise injection. 変換には代名詞、エンティティ、数値スワッピング、文否定、ノイズ注入が含まれる。 0.61
BM25 Top responses returned by BM25 (Robertson and Zaragoza, 2009) based on similarity with the context. BM25 BM25 (Robertson and Zaragoza, 2009) によるトップレスポンスは、コンテキストとの類似性に基づいて返された。 0.69
Any ground truth response is removed from this response set if present by chance. 根拠となる真理応答は、偶然に存在すればこの応答集合から取り除かれる。 0.62
This baseline is inspired from Karpukhin et al (2020) and Lin et al (2020) and has shown strong performance in passage and response retrieval. このベースラインは Karpukhin et al (2020) と Lin et al (2020) に触発され、通過と応答の検索において強い性能を示している。 0.77
Mask-and-fill Our approach that infills utterances conditioned on random contexts. Mask-and-fill ランダムな文脈で条件付けられた発話を埋め込むアプローチ。 0.51
Key-context Our approach that generates responses conditioned on test context keywords and random context history. キーコンテキスト テストコンテキストキーワードとランダムコンテキスト履歴に条件付き応答を生成するアプローチ。 0.75
Key-sem Our approach similar to Key-context which additionally conditions on words semantically related to the keywords in the context. Key-sem 我々のアプローチは、文脈内のキーワードに意味的に関連する単語の条件を付加するKey-contextに似ています。
訳抜け防止モード: キー - セム キーと似たアプローチ - コンテキスト さらに、コンテキスト内のキーワードに意味的に関連する単語の条件。
0.70
For each context, adversarial train sets are created by adding 5 random negative responses to the 各コンテキストに対して、5つのランダムな負の応答を追加することで、逆行集合を生成する。 0.55
set of 5 negative responses created from the above approaches. 上記のアプローチから生じる5つの負の反応のセット。 0.75
If an approach create more than 5 responses, we randomly select 5 from them. アプローチが5つ以上の応答を生成する場合、ランダムに5つを選択する。 0.74
For dialogue evaluation, we compare the above approaches with BLEU, METEOR (Banerjee and Lavie, 2005), embedding based metrics SkipThought (Kiros et al , 2015), Vec Extrema (Forgues et al , 2014), and RUBER (Tao et al , 2018) and BERTScore (Zhang et al , 2020a). 対話評価では、上記の手法をBLEU、METEOR(Banerjee and Lavie, 2005)、SkipThought(Kiros et al , 2015)、Vec Extrema(Forgues et al , 2014)、RUBER(Tao et al , 2018)、BERTScore(Zhang et al , 2020a)と比較する。 0.63
4.2.4 Models We experiment with following architectures for ranking and evaluation models in our experiments: 1) Bert (Devlin et al , 2019). 4.2.4 モデル 実験でランク付けと評価モデルのために、以下のアーキテクチャを実験します。 0.60
We use the SA-Bert model (Gu et al , 2020), 2) Electra (Clark et al , 2020), pre-trained with a replaced token detection objective and employs a generator-discrimina tor framework, and 3) Poly-encoders (Humeau et al , 2020), allows for fast real-time inference by precomputing each candidate response representation once, and then ranking candidate responses for retrieval by attending to the context. 我々は,SA-Bert モデル (Gu et al , 2020), 2) Electra (Clark et al , 2020), 交換トークン検出対象で事前訓練を行い, ジェネレータ・ディスクリミネーター・フレームワークを使用し, 3) ポリエンコーダ (Humeau et al , 2020) を用いて,各候補の応答表現を1回プリ計算して高速なリアルタイム推論を可能にし, そして, コンテキストに順応して検索の候補応答をランク付けする。 0.77
4.3 Results and Discussion In this section, we compare the performance of our approaches with the baselines on dialogue classification, ranking and evaluation tasks. 4.3 結果と考察 この節では, 対話の分類, ランキング, 評価タスクのベースラインと比較する。 0.62
Performance on classification Our proposed approaches Mask-and-fill and Key-sem achieve the highest classification accuracy on the adversarial test set (Table 2), a few percentage short of the Human baseline. 分類性能 提案手法では,ヒトのベースラインより数パーセント短い敵テストセット(表2)において,マスク・アンド・フィルとキー・セムの分類精度が最も高い。 0.80
The closest baseline is BM25 which has a gap of 3% in accuracy compared to our 最も近いベースラインはbm25で、我々の比較で3%の精度の差がある。 0.71
英語(論文から抽出)日本語訳スコア
Approach Random Semi-hard Token-subs BM25 Mask-and-fill (Ours) Key-sem (Ours) アプローチ ランダム半硬Token-subs BM25 Mask-and-fill (Ours) Key-sem (Ours) 0.68
Adversarial test set R@1 MRR 0.820 0.905 0.820 0.906 0.825 0.895 0.925 0.859 0.871 0.933 0.920 0.856 逆境 テストセット R@1 MRR 0.820 0.905 0.820 0.906 0.825 0.895 0.925 0.859 0.871 0.933 0.920 0.856 0.53
Random test set ランダムテストセット 0.78
R@1 MRR 0.914 0.963 0.964 0.913 0.901 0.958 0.940 0.874 0.890 0.952 0.947 0.884 R@1 MRR 0.914 0.963 0.964 0.913 0.901 0.958 0.940 0.874 0.890 0.952 0.947 0.884 0.49
Table 3: Performance on ranking task on PersonaChat dataset with Bert architecture. 表3: Bert アーキテクチャを使用した PersonaChat データセットのランキングタスクのパフォーマンス。 0.81
Our approaches perform better than all baselines on the adversarial test set. 我々のアプローチは、敵検定セットのすべてのベースラインより優れている。 0.64
approaches. Token-subs, which applies transformations on positive responses to corrupt them, does not fair well on this task. アプローチ。 正の反応に変換を適用して腐敗させるToken-subsは、このタスクでは不公平である。 0.56
This indicates that simple transformations do not provide good coverage of semantic variations present in the adversarial test responses. これは、単純な変換は、逆テスト応答に存在する意味的変化を適切にカバーしていないことを示している。 0.53
Our approaches achieve similar performance across different model architectures, demonstrating their generalizability. 我々のアプローチは、異なるモデルアーキテクチャで同様の性能を実現し、それらの一般化可能性を示す。 0.51
Unsurprisingly, the Human baseline performs strongly as the training and test data were created in the same manner and have similar distributions. 当然ながら、人間のベースラインはトレーニングとテストのデータは同じ方法で作成され、同様の分布を持つため、強く実行される。 0.71
On the random test set, the performance of all approaches is either very close or lower than the Random baseline. ランダムテストセットでは、全てのアプローチのパフォーマンスはランダムベースラインよりも非常に近いか低いかのいずれかである。 0.76
Since the similarity between correct responses and the context is generally a lot higher than between random responses and the context in the random test set, Random baseline performs better since it associates coherence mostly with semantic similarity. 正しい応答とコンテキストの類似性は、一般にランダムな応答とランダムなテストセットのコンテキストとの類似性よりもはるかに高いので、ランダムなベースラインは、主に意味的な類似性とコヒーレンスを関連付けるため、より良く機能する。
訳抜け防止モード: 正しい応答とコンテキストの類似性は一般にランダム応答よりもはるかに高いので ランダムなテストセットのコンテキストにおいて、Randomベースラインはコヒーレンスと主にセマンティックな類似性を関連付けるので、パフォーマンスが向上します。
0.77
Finally, our analysis shows that all baselines tend to assign low scores to valid responses which do not address a context directly. 分析の結果,すべてのベースラインは,文脈に直接対応しない有効な応答に対して低いスコアを割り当てる傾向が見られた。 0.71
For example, for the context “Will you join us for the concert?”, if the response is “It is supposed to rain this week.”, models assign it a low score. 例えば,“コンサートにご参加いただけますか?”という文脈では,応答が“今週は雨が降るはずです”というような場合,モデルには低いスコアが割り当てられます。 0.81
Such scenarios require understanding of social and commonsense related factors. このようなシナリオは、社会的および常識的な関連要因を理解する必要がある。 0.50
We leave addressing this limitation to future work. 我々はこの制限を将来の仕事に任せる。 0.73
Performance on ranking On the DailyDialog adversarial test set, Mask-and-fill and Key-sem approaches achieve the best Recall and MRR, closely followed by BM25 baselines (Table 2). dailydialog adversarial test set, mask-and-fill, key-semでのランキングのパフォーマンスは、最高のリコールとmrを達成し、bm25ベースライン(表2)と密接に続く。
訳抜け防止モード: dailydialog adversarial test set, mask - and-fill and key - sem によるベストリコールと mrr のランキング成績 続いてbm25ベースライン(表2)が続く。
0.68
The trends of the ranking metrics are similar to those observed for accuracy metrics. ランキング指標の傾向は、正確度指標で観察されるものと似ている。 0.64
Our approaches perform better than the Human baseline on the random test set. 我々の手法はランダムなテストセットにおけるヒューマンベースラインよりも優れている。 0.64
On PersonaChat dataset, Mask-and-fill and Keysem perform better than the baselines (Table 3), especially on the adversarial test set. PersonaChatデータセットでは、Mask-and-fillとKeysemはベースライン(Table3)よりもパフォーマンスがよい。
訳抜け防止モード: PersonaChatデータセットでは、Mask - and-fillとKeysemはベースライン(表3)よりもパフォーマンスがよい。 特に 対人テストセットで
0.65
This demonstrates the extensibility of our approach across datasets. これは、データセットにまたがるアプローチの拡張性を示しています。 0.46
Mask-and-fill performs better than Keysem as the keyword sets contain a lot of keywords from the persona because of which responses have Mask-and-fillは、キーワードセットがペルソナの多くのキーワードを含んでいるため、Keysemよりもパフォーマンスがよい。 0.63
Approach BLEU-2 METEOR (Banerjee and Lavie, 2005) SkipThought (Kiros et al , 2015) Vec Extrema (Forgues et al , 2014) BERTScore (Zhang et al , 2020a) RUBER (Tao et al , 2018) Random Semi-hard (Li et al , 2019) BM25 (Karpukhin et al , 2020) Token-subs (Kryscinski et al , 2020) Mask-and-fill (Ours) Key-sem (Ours) Human (Sai et al , 2020) アプローチ BLEU-2 METEOR (Banerjee and Lavie, 2005) SkipThought (Kiros et al , 2015) Vec Extrema (Forgues et al , 2014) BERTScore (Zhang et al , 2020a) RUBER (Tao et al , 2018) Random Semi-hard (Li et al , 2019) BM25 (Karpukhin et al , 2020) Token-subs (Kryscinski et al , 2020) Mask-and-fill (Ours) Key-sem (Ours) Human (Sai et al , 2020) 0.99
Pearson Spearman 0.046 0.081 0.059 0.157 0.208 0.253 0.296 0.299 0.310 0.324 0.338 0.382 0.348 Pearson Spearman 0.046 0.081 0.059 0.157 0.208 0.253 0.296 0.299 0.310 0.324 0.338 0.382 0.348 0.45
0.004 0.007 0.069 0.150 0.198 0.282 0.313 0.315 0.350 0.388 0.361 0.401 0.371 0.004 0.007 0.069 0.150 0.198 0.282 0.313 0.315 0.350 0.388 0.361 0.401 0.371 0.41
Table 4: Comparison of approaches on dialogue evaluation. 表4:対話評価におけるアプローチの比較 0.81
Trainable metrics are based on Bert architecture. トレーニング可能なメトリクスはbertアーキテクチャに基づいている。 0.49
For all entries except for the ones underlined, t-test pvalue < 0.05. 下線以外のすべてのエントリについて、t-test pvalue < 0.05 である。 0.62
Mask-and-fill and Key-sem perform better than all baselines including the Human baseline. Mask-and-fillとKey-semは、Humanベースラインを含むすべてのベースラインよりもパフォーマンスがよい。 0.52
high content similarity with the persona rather than with the context. 文脈よりもペルソナとのコンテンツの類似度が高い。 0.57
The poor performance of the Random baseline provides evidence that training models using random negative candidates does not make the models robust against hard test cases during testing. Randomベースラインの貧弱なパフォーマンスは、ランダムな負の候補を用いたトレーニングモデルがテスト中のハードテストケースに対して堅牢にしないことを示す。 0.74
BM25 is a strong baseline for both datasets since retrieved responses also provide coverage over errors of various categories. bm25は、応答がさまざまなカテゴリのエラーをカバーできるため、両方のデータセットにとって強力なベースラインである。 0.57
However, retrieved response quality and diversity depends on the size of the retrieval pool. しかし、検索された応答品質と多様性は、検索プールのサイズに依存する。 0.65
Furthermore, a stronger retrieval mechanism can lead to higher false negatives. さらに、より強力な検索機構は、より高い偽陰性をもたらす可能性がある。 0.53
While the variation in BM25 response sets is constraint by the size of the dataset, and they provide lesser coverage over categories Ccont, C-strat and C-lang (Table 1), our approaches have no such constraints. BM25応答セットの変動はデータセットのサイズによって制約されるが、Ccont, C-strat, C-lang (Table 1) よりも少ないカバレッジを提供するが、我々のアプローチにはそのような制約はない。 0.74
Performance on dialogue evaluation To study the performance of various approaches on real systems, we compare them on the task of Dialogue evaluation or scoring. 対話評価の性能 実システム上での様々なアプローチの性能を調べるために,対話評価やスコアリングの課題について比較する。 0.80
We measure the correlation between the scores predicted by the approaches in Table 4 with human provided ratings. 表4のアプローチによって予測されるスコアと人為的評価との相関を測る。 0.72
Reference based metrics like BLEU-2, METEOR, SkipThought and Vec Extrema achieve very low correlations, similar to findings reported in prior art (Liu et al , 2016; Gupta et al , 2019). BLEU-2、METEOR、SkipThought、Vec Extremaといった参照ベースのメトリクスは、以前のアートで報告された結果(Liu et al , 2016; Gupta et al , 2019)と同様、非常に低い相関を実現している。
訳抜け防止モード: BLEU-2、METEOR、SkipThought、Vec Extremaといった基準ベースのメトリクスは非常に低い相関性が得られる。 先行技術 (Liu et al, 2016 ; Gupta et al。 2019 ) .
0.73
BERTScore and RUBER achieve moderate correlation. BERTScoreとRUBERは適度な相関を得る。 0.59
Our approach Key-sem achieves the best correlations, followed by Mask-and-fill. 我々のアプローチは最高の相関関係を達成し、マスク・アンド・フィルが続く。 0.46
BM25’s performance is lower than that of our approaches, but it is higher than the Random and Semi-hard approaches. bm25のパフォーマンスは私たちのアプローチよりも低いですが、ランダムで半ハードなアプローチよりも優れています。
訳抜け防止モード: BM25のパフォーマンスは我々のアプローチよりも低い。 しかし、それはランダムとセミのハードアプローチよりも高いです。
0.75
Although Token-subs did not achieve high performance on the classification and ranking tasks, it performs well on this task. token-subsは分類やランク付けのタスクでは高いパフォーマンスを達成できなかったが、このタスクではうまく機能する。 0.65
This is likely because real model outputs contains more of これは、実際のモデル出力がより多くのものを含んでいるためです 0.55
英語(論文から抽出)日本語訳スコア
Context Random Mask-and-fill 文脈 ランダム マスク・アンド・フィル 0.52
Key-sem Human A: Julia, will you be my wife? キーセム 人間 A:ジュリア、あなたは私の妻になりますか。 0.62
B: I’m sorry, Steven. B: 申し訳ありません、Steven。 0.69
C: Please, Julia, I have made proposal to you five times . C: お願いします、Julia、私は5回提案しました。 0.75
I really want to share 私は本当に共有したい 0.77
the rest of my life with you. 残りの人生を あなたと過ごした 0.55
(1) Yes of course it’s a promise. 1) もちろん、それは約束です。 0.52
(2) It’s better to go somewhere else. (2)どこか他の場所に行くほうがよい。 0.80
(3) Let me first look at your work, how you have done it. 3)まずあなたの仕事、どのようにそれをしたかを見てみましょう。 0.78
(4) Being in love is a deep experience while having a crush is shallow. (4)恋は深い経験であり、砕け目は浅い。 0.58
(5) Sometimes I don’t understand, what is your problem? (5) 時々、私は理解できませんが、あなたの問題は何ですか? 0.74
(1) You can’t force me for to do that. 1) そうするように強要することはできません。 0.58
They are designed for people of all ages and religions. あらゆる年齢や宗教の人々のためにデザインされている。 0.71
(2) There you are. (2)そこにいます。 0.74
I’ll have to make my own lunch! 自分でランチを作らなければならない! 0.67
(3) I majored in economics. 3)経済学を専攻しました。 0.72
I really want i hope i can get some practical experience in life with you. 私はあなたと人生で実践的な経験を得られることを本当に願っています。 0.70
(4) We will go to, and to meet some of the children who are visiting at school. (4)学校を訪問している子供たちに会いに行く。 0.51
(5) It takes time to learn. (5) 学ぶには時間がかかる。 0.78
Bless you, baby! 祝福しろ、ベイビー! 0.62
(1) And what about the potatoes? Steven, i don’t know. 1)ジャガイモは? steven、私にはわからない。 0.47
(2) Sorry, there is no problem. 2)申し訳ありませんが、問題ありません。 0.71
(3) Your wife didn’t like it. (3)奥さんは気に入らなかった。 0.68
Please don’t tell me she is really interested in gardening. 彼女が園芸に興味を持っているとは言わないで下さい。 0.63
(4) I really want to go inside. (4)私は本当に中に入りたい。 0.73
It’s really cold outside. 外はとても寒いです。 0.59
(5) Really? I really want to pay a visit. (5) 本当に? 私は本当に訪問したいです。 0.81
I really want to spend the rest of my time enjoying this meal. 私はこの食事を楽しんでいる残りの時間を本当に過ごしたい。 0.81
(1) I want to finish my home work by five and then I am going to take rest. 1)5時までに家事を終えたいので、それから休むつもりです。 0.59
(2) Follow these five tips, and you’ll write a winning project proposal every time. 2) この5つのヒントをフォローすれば,毎回優勝したプロジェクト提案を書くことができます。 0.80
(3) I met my wife a three to four times before the marriage. (3)結婚の3〜4回前に妻に会った。 0.67
(4) Its difficult to live a life in a Dorze tribal area. (4)ドーゼの部族地域での生活は困難である。 0.68
(5) I shared a large number of ideas with the wedding planner. (5)ウェディングプランナーとたくさんのアイデアを共有しました。 0.64
Table 5: Sample adversarial responses from various approaches. 表5: 様々なアプローチによる逆応答のサンプル。 0.80
Random responses are sampled from random dialogues. ランダム応答はランダム対話からサンプリングされる。 0.72
Human written responses are from the DailyDialog++ dataset. 人間が書いた応答はdailydialog++データセットからのものです。 0.51
Mask-and-fill and Key-sem approaches create responses which are semantically related and yet inappropriate responses to the context. Mask-and-fill と Key-sem のアプローチは、セマンティックな関連性があり、コンテキストに対する不適切な応答を生成する。 0.57
cation outputs of various approaches on the DailyDialog++ adversarial test set and report the types of misclassifications by each approach in Figure 3. DailyDialog++逆行テストセットにおける様々なアプローチのカチオン出力と、各アプローチによる誤分類のタイプを図3に示す。 0.76
We first select a subset of test data where at least one of the approaches misclassifies the adversarial response as positive. まず,少なくとも1つのアプローチが正の逆応答を誤分類するテストデータのサブセットを選択する。 0.78
We then manually categorize the types of errors presented in Table 1 for 200 randomly selected contexts from this subset. 次に、このサブセットからランダムに選択された200のコンテキストに対して、テーブル1に表示されるエラーの種類を手動で分類する。 0.62
Each response can have multiple error types. 各応答は複数のエラータイプを持つことができる。 0.64
C-follow and C-extra are the dominant error types which are misclassified by baselines Random, BM25 and Token-subs. C-follow と C-extra は、Random, BM25, Token-subs で誤分類される主要なエラータイプである。 0.61
Key-sem and Mask-and-fill approaches achieve improvement in all error types compared to baselines and have a more uniform error distribution. Key-semおよびMask-and-fillアプローチは、ベースラインと比較して全てのエラータイプを改善し、より均一なエラー分布を持つ。 0.66
While Key-sem performs better on C-extra, Mask-and-fill is better on C-follow and C-speaker. Key-semはC-extraより優れているが、Mask-and-fillはC-followとC-speakerより優れている。 0.47
Adversarial response examples We present sample responses from our approaches along with Random and Human baseline responses in Table 5. 逆応答例 テーブル5のランダムとヒューマンベースライン応答とともに、我々のアプローチからのサンプル応答を示す。 0.86
Random approach generates responses which are easily distinguishable from ground truth responses. ランダムアプローチは、基底真理応答と容易に区別できる応答を生成する。 0.70
Mask-and-fill approach modifies either the ground truth response, utterances from the context or BM25 retrieved responses. Mask-and-fillアプローチは、背景の真理応答、文脈からの発声、あるいはBM25検索された応答を変更する。
訳抜け防止モード: Mask - and-fill アプローチは、文脈から発声する基底真理応答を修飾する あるいは BM25 が応答した。
0.61
It modifies these utterances to introduce corruptions such as noncontextual tokens, extraneous entities, incorrect time expressions, affective words or contradictions which makes the response either inappropriate or incoherent to the context, but it remains topically 非文脈トークン、外在物、不正確な時間表現、感情的な言葉、あるいは矛盾など、文脈に不適切または不整合な応答を生じさせるような腐敗を導入するために、これらの発話を修正します。 0.64
Figure 3: Analysis of error types for different approaches on DailyDialog++ predictions. 図3: DailyDialog++予測における異なるアプローチのエラータイプの分析。 0.82
C-lang error type is not present in DailyDialog++. C言語エラー型はDailyDialog++には存在しない。 0.56
Mask-and-fill and Key-sem achieve a more uniform distribution over error categories compared to other approaches. Mask-and-fillとKey-semは、他のアプローチと比較してエラーカテゴリよりも均一な分布を達成する。 0.53
the factual inconsistencies and contradictions that this approach captures, than what the adversarial test sets contain. 現実の矛盾と矛盾 このアプローチが捉える 矛盾は 敵対的なテストセットが 含んでいるものよりも 0.72
Key-sem performs better than Mask-and-fill on evaluation since while Mask-andfill only modifies utterances related to the context, Key-sem can freely generate more diverse adversarial responses for training. Mask-andfillは文脈に関連する発話のみを修飾するのに対して、Key-semはトレーニングのためのより多様な逆応答を自由に生成できる。 0.67
Also, Key-sem achieves higher correlation than Human baseline. また、キーセムは人間のベースラインよりも高い相関性が得られる。 0.49
This may be because it is difficult for humans to create erroneous responses with distributions similar to the ones in model generated or selected responses, especially error types like C-speaker, C-strat and Clang. これは、モデルが生成または選択した応答、特にc-speaker、c-strat、clangのようなエラータイプに類似した分布を持つ誤応答を作成することが難しいためかもしれない。 0.67
In contrast, our approaches provide good coverage over all error types. 対照的に、我々のアプローチはすべてのエラータイプに対して良好なカバレッジを提供します。 0.55
Analysis of errors types We analyze the classifi- エラータイプの解析 クラスifiの解析- 0.80
英語(論文から抽出)日本語訳スコア
similar to the context. In Key-sem the dialogue acts, some entities and other tokens of the generated response depend on a random context the response is conditioned on, which also makes the response inappropriate or incoherent to the context. 文脈に似ています キーセムの対話では、生成した応答のいくつかの実体や他のトークンは、応答が条件づけられたランダムなコンテキストに依存する。 0.58
5 Related Work Dialogue response ranking and evaluation are important tasks in dialogue domain because even the recent large pretrained-language model based architectures (Zhang et al , 2020b; Humeau et al , 2020; Adiwardana et al , 2020; Roller et al , 2021; Gupta et al , 2021) have been shown to be susceptible to creating inconsistent, ungrammatical and incoherent responses (Roller et al , 2021). 5 関連作業 対話応答のランキングと評価は、最近の大規模事前訓練された言語モデルベースアーキテクチャ(Zhang et al , 2020b; Humeau et al , 2020; Adiwardana et al , 2020; Roller et al , 2021; Gupta et al , 2021)でさえも、一貫性のない非文法的かつ一貫性のない応答を生み出すことに感受性があることが示されているため、対話領域において重要なタスクである。 0.75
Traditional word-overlap based metrics like BLEU have been shown to be ineffective for dialogue response scoring (Liu et al , 2016; Gupta et al , 2019). BLEUのような従来の単語オーバーラップベースのメトリクスは、対話応答のスコアリングには効果がない(Liu et al , 2016; Gupta et al , 2019)。 0.74
Recently trainable metrics such as ADEM (Lowe et al , 2017), RUBER (Ghazarian et al , 2019) and USR (Mehri and Eskenazi, 2020) have been proposed for these tasks. 近年、ADEM(Lowe et al , 2017)、RUBER(Ghazarian et al , 2019)、USR(Mehri and Eskenazi, 2020)などのトレーニング可能なメトリクスが提案されている。 0.67
However, since they are trained using negative samples obtained from random contexts, they are also prone to the spurious pattern of content similarity. しかしながら、ランダムな文脈から得られた負のサンプルを用いて訓練されるため、コンテンツの類似性の散発的なパターンも引き起こされる。 0.76
Adversarial or counterfactual data creation techniques have been proposed for applications such as evaluation (Gardner et al , 2020; Madaan et al , 2020), attacks (Ebrahimi et al , 2018; Wallace et al , 2019; Jin et al , 2020), explanations (Goodwin et al , 2020; Ross et al , 2020) or training models to be robust against spurious patterns and biases (Garg et al , 2019; Huang et al , 2020). 評価(Gardner et al , 2020; Madaan et al , 2020)、攻撃(Ebrahimi et al , 2018; Wallace et al , 2019; Jin et al , 2020)、説明(Goodwin et al , 2020; Ross et al , 2020)、あるいは刺激的なパターンやバイアスに対して堅牢なトレーニングモデル(Garg et al , 2019; Huang et al , 2020)などのアプリケーションに対して、対向的あるいは対向的なデータ生成技術が提案されている。 0.90
Adversarial examples are crafted through operations such as adding noisy characters (Ebrahimi et al , 2018; Pruthi et al , 2019), paraphrasing (Iyyer et al , 2018), replacing with synonyms (Alzantot et al , 2018; Jin et al , 2020), rule based token-level transformations (Kryscinski et al , 2020), or inserting words relevant to the context (Zhang et al , 2019). Ebrahimi et al , 2018; Pruthi et al , 2019)、パラフレーズ(Iyyer et al , 2018)、同義語(Alzantot et al , 2018; Jin et al , 2020)、ルールベースのトークンレベルの変換(Kryscinski et al , 2020)、コンテキストに関連する単語の挿入(Zhang et al , 2019)といった操作を通じて、逆の例が作成される。 0.78
While these approaches are optimized to change the predictions of a target model by perturbing the inputs, our approaches are more general and are not optimized towards any target model. これらのアプローチは入力を摂動することで対象モデルの予測を変更するように最適化されているが、我々のアプローチはより一般的なものであり、任意の対象モデルに対して最適化されていない。 0.60
Polyjuice (Wu et al , 2021) and FactCC (Kryscinski et al , 2020) proposed approaches for modelagnostic general-purpose counterfactual generation. Polyjuice (Wu et al , 2021) と FactCC (Kryscinski et al , 2020) は、汎用的対実生成をモデル化するためのアプローチを提案した。 0.69
These approaches change the model’s prediction by creating small edits through substitutions and insertions to the inputs. これらのアプローチは、入力への置換や挿入を通じて小さな編集を作成することによって、モデルの予測を変える。
訳抜け防止モード: これらのアプローチはモデル予測を変える 入力への置換と挿入を通じて小さな編集を作成する。
0.84
They are not applicable to our setting where we aim to flip the gold label, 金のラベルをひっくり返そうとする私たちの設定には適用できません。 0.62
that is, convert a valid response to an adversarial response, while the model prediction should ideally remain the same to create hard training examples. つまり、相手の反応に有効な応答を変換するのに対して、モデル予測は理想的には同じであり、ハードトレーニングの例を作成するべきです。
訳抜け防止モード: つまり、相手の反応に有効な応答を変換するのです モデル予測は 強硬なトレーニングの例を作るのに 理想的に同じであるべきです
0.76
Furthermore small perturbations do not provide good coverage over the adversarial response space and can create false negative responses. さらに、小さな摂動は敵の応答空間をうまくカバーせず、偽のネガティブな応答を生じさせる。
訳抜け防止モード: さらに、小さな摂動は対向応答空間に良いカバレッジを与えない 偽陰性反応を 生み出すことができます
0.69
Adversarial semantic collisions (Song et al , 2020) aims to generate texts that are semantically unrelated but judged as similar by NLP models to expose model vulnerabilities. 敵対的意味衝突(song et al , 2020)は、意味的に無関係だが、nlpモデルによって類似していると判断されたテキストを生成し、モデルの脆弱性を明らかにすることを目的としている。
訳抜け防止モード: 敵対的意味衝突(Song et al, 2020) 意味的に無関係なテキストを生成するが、NLPモデルによってモデル脆弱性を公開するために類似していると判断される。
0.60
However, the outputs which are unrelated to the context are not useful for adversarial training as they are easy to classify. しかし、文脈と無関係な出力は、分類が容易であるため、敵の訓練には役に立たない。 0.64
Finally, negative sampling strategies have also been studied for creating hard negative samples in context of visual embeddings (Faghri et al , 2018; Guo et al , 2018), knowledge graphs (Kotnis and Nastase, 2017), document retrieval (Saeidi et al , 2017; Karpukhin et al , 2020) and response retrieval (Li et al , 2019; Lin et al , 2020). 最後に、視覚埋め込み(Faghri et al , 2018; Guo et al , 2018)、知識グラフ(Kotnis and Nastase, 2017)、文書検索(Saeidi et al , 2017; Karpukhin et al , 2020)、応答検索(Li et al , 2019; Lin et al , 2020)の文脈でハードネガティブサンプルを作成するためのネガティブサンプリング戦略も研究されている。 0.76
In this work we compare and build upon past work and are the first to propose generative approaches for adversarial negative response creation in dialogue. 本研究は,過去の研究を比較・構築し,対話における否定応答生成のための生成的アプローチを初めて提案するものである。 0.66
6 Conclusion This paper introduces approaches for synthesizing adversarial negative responses for training more robust dialogue response ranking and evaluation models. 6 結論 本稿では,より堅牢な対話応答ランキングと評価モデルを構築するために,逆応答を合成する手法を提案する。 0.65
To synthesize a rich and comprehensive set of responses, we present and analyze categories of errors which affect the models. リッチで包括的な応答の集合を合成するために、モデルに影響を与えるエラーのカテゴリを提示し分析する。 0.65
Our proposed approaches do not require any manual annotation and achieve high performance in dialogue classification, ranking and evaluation tasks across two datasets. 提案手法は手動のアノテーションを必要とせず、2つのデータセットの対話分類・ランキング・評価タスクにおいて高い性能を達成する。 0.67
These results demonstrate the promise of synthetic negative examples for improving open domain dialogue. これらの結果は、オープンドメイン対話を改善するための合成ネガティブな例の有望さを示している。 0.52
Future work, we will explore synthesizing adversarial test sets and methods for finer grained, controlled adversarial response generation. 今後の課題として、よりきめ細かな制御された対向応答生成のための対向テストセットと方法の合成について検討する。
訳抜け防止モード: 今後の研究は きめ細かい、制御された逆応答生成のための逆テストセットおよび方法の合成。
0.57
Acknowledgements We thank Amy Pavel, Alissa Ostapenko, Rishabh Joshi, Artidoro Pagnoni and the anonymous reviewers for providing valuable feedback. 覚書 Amy Pavel氏、Alissa Ostapenko氏、Rishabh Joshi氏、Artidoro Pagnoni氏、そして、貴重なフィードバックを提供した匿名のレビュアーに感謝します。
訳抜け防止モード: 覚書 Amy Pavel, Alissa Ostapenko, Rishabh Joshi, Artidoro Pagnoni そして、貴重なフィードバックを提供する匿名のレビュアー。
0.58
This work was funded by the Defense Advanced Research Planning Agency (DARPA) under DARPA Grant N6600198-18908, and the National Science Foundation under Awards No. この研究はDARPA Grant N6600198-18908 の国防高等研究計画局 (DARPA) と国家科学財団 (National Science Foundation) が助成した。 0.84
IIS1816012 and IIS2007960. IIS1816012およびIIS2007960。 0.78
Any opinions, findings, and conclusions or recommendations expressed in this material are those of the authors and do not necessarily reflect the views of the funding agencies. この資料で示された意見、所見、結論、推奨事項は著者のものであり、必ずしも資金提供機関の見解を反映していない。
訳抜け防止モード: 本資料で示される意見,所見,結論又は勧告は,著者の意見である 資金提供機関の見解を必ずしも反映する必要はない。
0.73
英語(論文から抽出)日本語訳スコア
References D. Adiwardana, Minh-Thang Luong, D. So, J. D. Adiwardana, Minh-Thang Luong, D. So, J 0.87
Hall, Noah Fiedel, R. Thoppilan, Z. Yang, Apoorv Kulshreshtha, G. Nemade, Yifeng Lu, and Quoc V. Le. Hall, Noah Fiedel, R. Thoppilan, Z. Yang, Apoorv Kulshreshtha, G. Nemade, Yifeng Lu, Quoc V. Le 0.89
2020. Towards a human-like open-domain chatbot. 2020. 人間のようなオープンドメインチャットボットを目指す。 0.63
ArXiv, abs/2001.09977. ArXiv, abs/2001.09977。 0.59
Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, and Kai-Wei Chang. Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani Srivastava, Kai-Wei Chang 0.81
2018. Generating natural language adversarial examples. 2018. 自然言語の逆例を生成する。 0.76
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2890–2896, Brussels, Belgium. 自然言語処理における経験的手法に関する2018年会議の議題2890-2896ページ、ブリュッセル、ベルギー。 0.77
Association for Computational Linguistics. Satanjeev Banerjee and Alon Lavie. 計算言語学会会員。 Satanjeev BanerjeeとAlon Lavie。 0.66
2005. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. 2005. METEOR: 人的判断との相関を改善したMT評価のための自動指標。 0.84
In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, pages 65–72, Ann Arbor, Michigan. The Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, page 65–72, Ann Arbor, Michigan 0.90
Association for Computational Linguistics. Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 計算言語学会会員。 Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel HerbertVoss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateuss Litwin, Scott Gray, Benjamin Chesss, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ia Sutsk, Dario Démod 0.67
2020. Language models are few-shot learners. 2020. 言語モデルはわずかな学習者です。 0.77
In Advances in Neural Information Processing Systems, volume 33, pages 1877–1901. 神経情報処理システムの進歩』第33巻、1877-1901頁。 0.70
Curran Associates, Inc. Curran Associates, Inc. 0.85
Deng Cai, Yan Wang, Wei Bi, Zhaopeng Tu, Xiaojiang Liu, and Shuming Shi. Deng Cai, Yan Wang, Wei Bi, Zhaopeng Tu, Xiaojiang Liu, Shuming Shi。 0.74
2019. Retrievalguided dialogue response generation via a matchingIn Proceedings of the to-generation framework. 2019. MatchIn Proceedings of the To- Generation framework による検索型対話応答生成 0.77
2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 1866–1875, Hong Kong, China. 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), page 1866–1875, Hong Kong, China 0.90
Association for Computational Linguistics. Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. 計算言語学会会員。 Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning。 0.68
2020. ELECTRA: Pretraining text encoders as discriminators rather than generators. 2020. ELECTRA: テキストエンコーダをジェネレータではなく識別器としてトレーニングする。 0.69
In ICLR. Jacob Cohen. ICLR。 ジェイコブ・コーエン。 0.54
1968. Weighted kappa: nominal scale agreement provision for scaled disagreement or partial credit. 1968. 重み付きkappa: 縮小された不一致または部分的信用のための名目的規模合意規定。 0.67
Psychological bulletin, 70(4):213. 心理学誌70(4):213。 0.76
Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota. 0.89
Association for Computational Linguistics. Chris Donahue, Mina Lee, and Percy Liang. 計算言語学会会員。 Chris Donahue, Mina Lee, Percy Liang 0.56
2020. Enabling language models to fill in the blanks. 2020. 空白を埋めるために言語モデルを実装。 0.77
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2492– 2501, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 2492–2501, Online 0.65
Association for Computational Linguistics. Javid Ebrahimi, Anyi Rao, Daniel Lowd, and Dejing Dou. 計算言語学会会員。 Javid Ebrahimi、Anyi Rao、Daniel Lowd、Dejing Dou。 0.61
2018. HotFlip: White-box adversarial examIn Proceedings of the ples for text classification. 2018. HotFlip: ホワイトボックスの逆行試験 テキスト分類のためのプルの証明。 0.81
56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 31–36, Melbourne, Australia. 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), page 31–36, Melbourne, Australia 0.84
Association for Computational Linguistics. Fartash Faghri, David J Fleet, Jamie Ryan Kiros, and Improving visual- 計算言語学会会員。 Fartash Faghri, David J Fleet, Jamie Ryan Kiros, and Improving visual- 0.71
Sanja Fidler. サンジャ・フィドラー 0.46
2018. Vse++: semantic embeddings with hard negatives. 2018. vse++: ハードネガティブな意味埋め込み。 0.76
Gabriel Forgues, ガブリエル Forgues 0.47
Jean-Marie Larchevˆeque, and R´eal Tremblay. ジャン=マリー・ラチェフエク(Jean-Marie Larcheveque)とR'eal Tremblay。 0.40
2014. Bootstrapping dialog systems with word embeddings. 2014. ワード埋め込みによるブートストラップダイアログシステム。 0.80
In NeurIPS, modern machine learning and natural language processing workshop, volume 2. neurips, modern machine learning and natural language processing workshop, volume 2(英語) 0.74
Joelle Pineau, ジョエル Pineau 0.48
Matt Gardner, Yoav Artzi, Victoria Basmov, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, Nitish Gupta, Hannaneh Hajishirzi, Gabriel Ilharco, Daniel Khashabi, Kevin Lin, Jiangming Liu, Nelson F. Liu, Phoebe Mulcaire, Qiang Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reut Tsarfaty, Eric Wallace, Ally Zhang, and Ben Zhou. Matt Gardner, Yoav Artzi, Victoria Basmov, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, Nitish Gupta, Hannaneh Hajishirzi, Gabriel Ilharco, Daniel Khashabi, Kevin Lin, Jiangming Liu, Nelson F. Liu, Phoebe Mulcaire, Qiang Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reut Tsarfaty, Eric Wallace, Ally Zhang, Ben Zhou 0.84
2020. Evaluating models’ local decision boundaries In Findings of the Association via contrast sets. 2020. モデルの局所的な決定境界を評価する コントラストセットによるアソシエーションの発見。 0.82
for Computational Linguistics: EMNLP 2020, pages 1307–1323, Online. for Computational Linguistics: EMNLP 2020, page 1307–1323, Online. 0.97
Association for Computational Linguistics. Sahaj Garg, Vincent Perot, Nicole Limtiaco, Ankur Taly, Ed H. Chi, and Alex Beutel. 計算言語学会会員。 Sahaj Garg、Vincent Perot、Nicole Limtiaco、Ankur Taly、Ed H. Chi、Alex Beutel。 0.63
2019. Counterfactual fairness in text classification through robustness. 2019. 強靭性によるテキスト分類における反実的公正性 0.71
In Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society, AIES ’19, page 219–226, New York, NY, USA. 2019 AAAI/ACM Conference on AI, Ethics, and Society, AIES ’19, page 219–226, New York, NY, USA
訳抜け防止モード: 2019 AAAI / ACM Conference on AI に参加して Ethics, and Society, AIES ’19 page 219–226, New York, NY, USA.
0.87
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Sarik Ghazarian, Johnny Wei, Aram Galstyan, and Nanyun Peng. Sarik Ghazarian, Johnny Wei, Aram Galstyan, Nanyun Peng 0.63
2019. Better automatic evaluation of open-domain dialogue systems with contextualized In Proceedings of the Workshop on embeddings. 2019. 組込みワークショップの手順における文脈化によるオープンドメイン対話システムの自動評価 0.80
Methods for Optimizing and Evaluating Neural Language Generation, pages 82–89, Minneapolis, Minnesota. ニューラル言語生成の最適化と評価方法,ミネソタ州ミネアポリス,82-89ページ 0.73
Association for Computational Linguistics. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 計算言語学会会員。 Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.64
2019. BERT: Pre-training of deep bidirectional transformers for language underIn Proceedings of the 2019 Conference standing. 2019. BERT: 2019年開催のProceedings of the 2019 Conferenceにおいて、言語の下での双方向トランスフォーマーの事前トレーニング。 0.71
of the North American Chapter of the Association for Computational Linguistics: Human Language 計算言語学協会の北米支部:人間言語について 0.61
Emily Goodwin, Koustuv Sinha, and Timothy J. O’Donnell. Emily Goodwin、Koustuv Sinha、Timothy J. O’Donnell。 0.69
2020. Probing linguistic systematicity. 2020. 言語学の体系性。 0.75
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1958–1969, Online. The 58th Annual Meeting of the Association for Computational Linguistics, page 1958–1969, Online 0.74
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
Jia-Chen Gu, Tianda Li, Quan Liu, Zhen-Hua Ling, Zhiming Su, Si Wei, and Xiaodan Zhu. Jia-Chen Gu, Tianda Li, Quan Liu, Zhen-Hua Ling, Zhiming Su, Si Wei, Xiaodan Zhu 0.85
Speaker-Aware BERT for Multi-Turn Re2020. マルチTurn Re2020のための話者対応BERT 0.50
sponse Selection in Retrieval-Based Chatbots, page 2041–2044. sponse Selection in Retrieval-Based Chatbots, page 2041–2044 0.84
Association for Computing Machinery, New York, NY, USA. Association for Computing Machinery, New York, NY, USA (英語) 0.85
Robin Jia and Percy Liang. ロビン・ジアとパーシー・リアン 0.44
2017. Adversarial examples for evaluating reading comprehension systems. 2017. 読解システムの評価における逆例 0.77
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2021–2031, Copenhagen, Denmark. 2017 Conference on Empirical Methods in Natural Language Processing, page 2021–2031, Copenhagen (デンマーク)。 0.75
Association for Computational Linguistics. Guibing Guo, Songlin Zhai, Fajie Yuan, Yuan Liu, and Xingwei Wang. 計算言語学会会員。 Guibing Guo, Songlin Zhai, Fajie Yuan, Yuan Liu, Xingwei Wang 0.59
2018. Vse-ens: Visual-semantic embeddings with efficient negative sampling. 2018. Vse-ens: 効率的なネガティブサンプリングによるビジュアルセマンティックな埋め込み。 0.66
Proceedings of the AAAI Conference on Artificial Intelligence, 32(1). AAAI Conference on Artificial Intelligence, 32(1) 0.55
Prakhar Gupta, Jeffrey Bigham, Yulia Tsvetkov, and Amy Pavel. Prakhar Gupta、Jeffrey Bigham、Yulia Tsvetkov、そしてAmy Pavel。 0.74
2021. Controlling dialogue generation In Proceedings of the with semantic exemplars. 2021. 意味的例の手続きにおける対話生成の制御 0.76
2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 3018–3029, Online. 2021 conference of the north american chapter of the association for computational linguistics: human language technologies, pages 3018–3029, online (英語) 0.89
Association for Computational Linguistics. Prakhar Gupta, Shikib Mehri, Tiancheng Zhao, Amy Pavel, Maxine Eskenazi, and Jeffrey Bigham. 計算言語学会会員。 Prakhar Gupta、Shikib Mehri、Tiancheng Zhao、Amy Pavel、Maxine Eskenazi、Jeffrey Bigham。 0.60
2019. Investigating evaluation of open-domain dialogue systems with human generated multiple references. 2019. 人為的複数参照を用いたオープンドメイン対話システムの評価 0.78
In Proceedings of the 20th Annual SIGdial Meeting on Discourse and Dialogue, pages 379–391, Stockholm, Sweden. 第20回SIGdial Meeting on Discourse and Dialogue(SIGdial Meeting on Discourse and Dialogue, 379-391頁, スウェーデンのストックホルム。 0.73
Association for Computational Linguistics. Ryuichiro Higashinaka, Masahiro Araki, Hiroshi Tsukahara, and Masahiro Mizukami. 計算言語学会会員。 東中龍一郎、荒木正弘、塚原弘、水上正弘。 0.49
2019. Improving taxonomy of errors in chat-oriented dialogue systems. 2019. チャット指向対話システムにおける誤りの分類法の改善 0.76
In 9th International Workshop on Spoken Dialogue System Technology, pages 331–343. 9th International Workshop on Spoken Dialogue System Technology, page 331–343。 0.90
Springer. Ari Holtzman, Jan Buys, Maxwell Forbes, and Yejin Choi. Springer Ari Holtzman, Jan Buys, Maxwell Forbes, Yejin Choi 0.59
2020. The curious case of neural text degeneration. 2020. 神経テキスト変性の興味深い例。 0.72
International Conference on Learning Representations. International Conference on Learning Representations(英語) 0.80
Po-Sen Huang, Huan Zhang, Ray Jiang, Robert Stanforth, Johannes Welbl, Jack Rae, Vishal Maini, Dani Yogatama, and Pushmeet Kohli. Po-Sen Huang、Huan Zhang、Ray Jiang、Robert Stanforth、Johannes Welbl、Jack Rae、Vishal Maini、Dani Yogatama、Pushmeet Kohli。 0.76
2020. Reducing sentiment bias in language models via counterfacIn Findings of the Association for tual evaluation. 2020. カウンタファックによる言語モデルにおける感情バイアスの低減 : 授業評価のためのアソシエーションの発見 0.74
Computational Linguistics: EMNLP 2020, pages 65–83, Online. 計算言語学:EMNLP 2020, page65-83, Online 0.81
Association for Computational Linguistics. Samuel Humeau, Kurt Shuster, Marie-Anne Lachaux, and Jason Weston. 計算言語学会会員。 サミュエル・ヒュー、カート・シュスター、マリー=アン・ラショー、ジェイソン・ウェストン。 0.49
2020. Poly-encoders: architectures and pre-training strategies for fast and accurate multi-sentence scoring. 2020. ポリエンコーダ: 高速かつ正確な多文スコアリングのためのアーキテクチャと事前学習戦略。 0.72
In 8th International Conference on Learning Representations, ICLR. 第8回国際学習表現会議(ICLR)に参加して 0.69
Mohit Iyyer, John Wieting, Kevin Gimpel, and Luke Zettlemoyer. Mohit Iyyer、John Wieting、Kevin Gimpel、Luke Zettlemoyer。 0.67
2018. Adversarial example generation with syntactically controlled paraphrase networks. 2018. 構文制御されたパラフレーズネットワークを用いた逆例生成 0.73
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 1875–1885, New Orleans, Louisiana. The 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), page 1875–1885, New Orleans, Louisiana. 0.80
Association for Computational Linguistics. Di Jin, Zhijing Jin, Joey Tianyi Zhou, and Peter Szolovits. 計算言語学会会員。 Di Jin、Zhijing Jin、Joey Tianyi Zhou、Peter Szolovits。 0.61
2020. Is bert really robust? 2020. バートは本当に頑丈か? 0.73
a strong baseline for natural language attack on text classification In Proceedings of the AAAI conand entailment. テキスト分類に基づく自然言語攻撃の強力なベースライン AAAIconand Entailmentの証明。 0.63
ference on artificial intelligence, volume 34, pages 8018–8025. 人工知能への言及、34巻8018-8025頁。 0.54
Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih 0.79
2020. Dense passage retrieval for open-domain question answering. 2020. オープンドメイン質問応答のための密閉通路探索 0.75
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6769– 6781, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 6769–6781, Online. 0.83
Association for Computational Linguistics. Divyansh Kaushik, Eduard Hovy, and Zachary C LipLearning the difference that makes ton. 計算言語学会会員。 divyansh kaushik氏、eduard hovy氏、そしてzachary c liplearning氏は、トンを生み出す違いについて説明している。 0.50
2020. a difference with counterfactually-aug mented data. 2020年 - 反事実データとの差異。 0.67
International Conference on Learning Representations (ICLR). ICLR (International Conference on Learning Representations) の略。 0.78
Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, and Sanja Fidler. Ryan Kiros、Yukun Zhu、Ruslan Salakhutdinov、Richard S. Zemel、Antonio Torralba、Raquel Urtasun、Sanja Fidler。 0.74
2015. Skip-thought vectors. 2015. スキップ思考ベクトル。 0.76
In Proceedings of the 28th International Conference on Neural Information Processing Systems - Volume 2, NIPS’15, page 3294–3302, Cambridge, MA, USA. The 28th International Conference on Neural Information Processing Systems - Volume 2, NIPS’15, page 3294–3302, Cambridge, MA, USA (英語) 0.84
MIT Press. Wei-Jen Ko, Greg Durrett, and Junyi Jessy Li. MIT出版。 Wei-Jen Ko, Greg Durrett, Junyi Jessy Li 0.69
2019. Linguistically-infor med specificity and semantic In Proceedplausibility for dialogue generation. 2019. 対話生成における言語学的インフォームドの特異性と意味 0.75
ings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 3456–3466, Minneapolis, Minnesota. ings of the 2019 conference of the north american chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers), pages 3456–3466, minneapolis, minnesota (英語) 0.82
Association for Computational Linguistics. Bhushan Kotnis and Vivi Nastase. 計算言語学会会員。 bhushan kotnisとvivi nastase。 0.51
2017. Analysis of the impact of negative sampling on link arXiv preprint prediction in knowledge graphs. 2017. 知識グラフにおけるリンクarxivプレプリント予測における負サンプリングの影響の解析 0.80
arXiv:1708.06816. arXiv:1708.06816。 0.48
Klaus Krippendorff. Klaus Krippendorff 0.58
2018. Content analysis: An intro- 2018. コンテンツ分析:イントロ- 0.80
duction to its methodology. Sage publications. 方法論への推論。 セージ出版。 0.61
Wojciech Kryscinski, Bryan McCann, Caiming Xiong, and Richard Socher. Wojciech Kryscinski、Bryan McCann、Caiming Xiong、Richard Socher。 0.69
2020. Evaluating the factual consistency of abstractive text summarization. 2020. 抽象テキスト要約の事実整合性の評価 0.78
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 9332–9346, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 9332–9346, Online. 0.88
Association for Computational Linguistics. Jia Li, Chongyang Tao, Wei Wu, Yansong Feng, Dongyan Zhao, and Rui Yan. 計算言語学会会員。 Jia Li, Chongyang Tao, Wei Wu, Yansong Feng, Dongyan Zhao, Rui Yan 0.60
2019. Sampling mat- 2019. サンプリングマット- 0.81
英語(論文から抽出)日本語訳スコア
ters! an empirical study of negative sampling strategies for learning of matching models in retrievalIn Proceedings of the based dialogue systems. ターズ! 対話システムの検索過程におけるマッチングモデルの学習のための負のサンプリング戦略に関する実証的研究 0.73
2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 1291–1296, Hong Kong, China. 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), page 1291–1296, Hong Kong, China 0.90
Association for Computational Linguistics. Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao, and Shuzi Niu. 計算言語学会会員。 Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao, Shuzi Niu 0.60
2017. DailyDialog: A manually labelled multi-turn dialogue dataset. 2017. DailyDialog: 手動でラベル付けされたマルチターン対話データセット。 0.73
In Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 986–995, Taipei, Taiwan. 第8回自然言語処理国際共同会議(第1巻:長文論文)第986-995ページ、台北、台湾。 0.67
Asian Federation of Natural Language Processing. アジア自然言語処理連盟 0.53
Zibo Lin, Deng Cai, Yan Wang, Xiaojiang Liu, Haitao Zheng, and Shuming Shi. Zibo Lin, Deng Cai, Yan Wang, Xiaojiang Liu, Haitao Zheng, Shuming Shi 0.68
2020. The world is not binary: Learning to rank with grayscale data for diIn Proceedings of the alogue response selection. 2020. the world is not binary: learning to rank with grayscale data for diin proceedings of the alogue response selection (英語) 0.83
2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 9220–9229, Online. 2020 conference on empirical methods in natural language processing (emnlp), pages 9220-9229, online (英語) 0.83
Association for Computational Linguistics. Chia-Wei Liu, Ryan Lowe, Iulian Serban, Mike Noseworthy, Laurent Charlin, and Joelle Pineau. 計算言語学会会員。 Chia-Wei Liu、Ryan Lowe、Iulian Serban、Mike Noseworthy、Laurent Charlin、Joelle Pineau。 0.65
2016. How NOT to evaluate your dialogue system: An empirical study of unsupervised evaluation metrics for dialogue response generation. 2016. 対話システムの評価方法:対話応答生成のための教師なし評価指標の実証的研究。 0.76
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2122–2132, Austin, Texas. 2016 Conference on Empirical Methods in Natural Language Processing, page 2122–2132, Texas.
訳抜け防止モード: 自然言語処理における経験的手法に関する2016年会議のまとめ 2122-2132頁、テキサス州オースティン。
0.75
Association for Computational Linguistics. Ryan Lowe, Michael Noseworthy, Iulian Vlad Serban, Nicolas Angelard-Gontier, Yoshua Bengio, and Joelle Pineau. 計算言語学会会員。 Ryan Lowe, Michael Noseworthy, Iulian Vlad Serban, Nicolas Angelard-Gontier, Yoshua Bengio, Joelle Pineau 0.65
2017. Towards an automatic Turing test: Learning to evaluate dialogue responses. 2017. 自動チューリングテストに向けて:対話応答を評価するための学習 0.78
In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1116–1126, Vancouver, Canada. 第55回計算言語学会年次大会(Volume 1: Long Papers, 1116–1126, Canada, Vancouver)に参加して 0.67
Association for Computational Linguistics. Nishtha Madaan, Inkit Padhi, Naveen Panwar, and Diptikalyan Saha. 計算言語学会会員。 Nishtha Madaan, Inkit Padhi, Naveen Panwar, Diptikalyan Saha 0.56
2020. Generate your counterfactuals: Towards controlled counterfactual generation for text. 2020. 対物生成: テキストの対物生成を制御すること。 0.72
arXiv preprint arXiv:2012.04698. arXiv preprint arXiv:2012.04698 0.71
Shikib Mehri and Maxine Eskenazi. Shikib MehriとMaxine Eskenazi。 0.79
2020. USR: An unsupervised and reference free evaluation metric for dialog generation. 2020. USR: ダイアログ生成のための教師なしおよび参照なしの評価基準。 0.78
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 681–707, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 681–707, Online 0.67
Association for Computational Linguistics. Artidoro Pagnoni, Vidhisha Balachandran, and Yulia Tsvetkov. 計算言語学会会員。 Artidoro Pagnoni、Vidhisha Balachandran、Yulia Tsvetkov。 0.58
2021. Understanding factuality in abstractive summarization with FRANK: A benchmark for factuality metrics. 2021. frankによる抽象要約における事実性を理解する: 事実性メトリクスのベンチマーク。 0.73
In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4812–4829, Online. The Association for Computational Linguistics: Human Language Technologies, page 4812–4829, Online. (英語) 0.50
Association for Computational Linguistics. Jeffrey Pennington, Richard Socher, and Christopher D Manning. 計算言語学会会員。 ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・d・マニング。 0.54
2014. Glove: Global vectors for word representation. 2014. glove: 単語表現のためのグローバルベクトル。 0.84
In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543. 2014年のProceedings of the 2014 Conference on empirical methods in natural language processing (EMNLP)において、1532–1543頁。
訳抜け防止モード: 自然言語処理における経験的手法に関する2014年会議(EMNLP)のまとめ 1532-1543頁。
0.83
Danish Pruthi, Bhuwan Dhingra, and Zachary C. Lipton. デンマークのpruthi、bhuwan dhingra、zachary c. lipton。 0.59
2019. Combating adversarial misspellings with robust word recognition. 2019. 頑健な単語認識を伴う敵のミススペルと戦う。 0.70
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 5582–5591, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 5582–5591, イタリア・フィレンツェ。 0.72
Association for Computational Linguistics. Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 計算言語学会会員。 Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever 0.63
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.72
Nils Reimers and Iryna Gurevych. Nils ReimersとIryna Gurevych。 0.81
2019. SentenceBERT: Sentence embeddings using Siamese BERTnetworks. 2019. SentenceBERT: Siamese BERTnetworksを使用した文の埋め込み。 0.78
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3982–3992, Hong Kong, China. 第9回国際自然言語処理会議(EMNLP-IJCNLP)と第9回国際自然言語処理会議(EMNLP-IJCNLP)において、3982-3992頁、香港、中国。 0.74
Association for Computational Linguistics. Stephen E. Robertson and Hugo Zaragoza. 計算言語学会会員。 Stephen E. RobertsonとHugo Zaragoza。 0.71
2009. The probabilistic relevance framework: BM25 and beyond. 2009. 確率的関連性フレームワーク:bm25以降。 0.76
Found. Trends Inf. 見つかった トレンドインフレーション。 0.59
Retr., 3(4):333–389. 3(4):333–389。 0.74
Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Eric Michael Smith, Y-Lan Boureau, and Jason Weston. Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Eric Michael Smith, Y-Lan Boureau, Jason Weston 0.83
2021. Recipes for building an open-domain chatbot. 2021. オープンドメインチャットボット構築のためのレシピ。 0.72
In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 300–325, Online. The 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, page 300–325, Online 0.76
Association for Computational Linguistics. Stuart Rose, Dave Engel, Nick Cramer, and Wendy Cowley. 計算言語学会会員。 スチュアート・ローズ、デイヴ・エンゲル、ニック・クレイマー、ウェンディ・カウリー。 0.52
2010. Automatic keyword extraction from individual documents. 2010. 個々の文書からのキーワードの自動抽出 0.79
Text mining: applications and theory, 1:1–20. テキストマイニング:応用と理論、1:1–20。 0.70
Alexis Ross, Ana Marasovi´c, and Matthew E PeExplaining nlp models via miniarXiv preprint Alexis Ross, Ana Marasovi ́c, and Matthew E PeExplaining nlp model via miniarXiv preprint 0.95
ters. 2020. mal contrastive editing (mice). ターズ 2020年 - 反トラスト編集(ミース)。 0.47
arXiv:2012.13985. arXiv:2012.13985。 0.49
Marzieh Saeidi, Ritwik Kulkarni, Theodosia Togia, and Michele Sama. Marzieh Saeidi, Ritwik Kulkarni, Theodosia Togia, Michele Sama 0.61
2017. The effect of negative sampling strategy on capturing semantic similarity in In Proceedings of the 2nd document embeddings. 2017. In Proceedings of the 2nd Document Embeddingsにおける意味的類似性獲得に対する負サンプリング戦略の効果 0.85
Workshop on Semantic Deep Learning (SemDeep2), pages 1–8, Montpellier, France. The Workshop on Semantic Deep Learning (SemDeep2), page 1-8, Montpellier, France。 0.94
Association for Computational Linguistics. Ananya B Sai, Akash Kumar Mohankumar, Siddhartha Arora, and Mitesh M Khapra. 計算言語学会会員。 Ananya B Sai、Akash Kumar Mohankumar、Siddhartha Arora、Mitesh M Khapra。 0.60
2020. Improving dialog evaluation with a multi-reference adversarial dataset and large scale pretraining. 2020. multi-reference adversarial dataset と large scale pretraining によるダイアログ評価の改善。 0.86
Transactions of the Association for Computational Linguistics, 8:810–827. 計算言語学会(Association for Computational Linguistics, 8:810-827)の略。 0.54
英語(論文から抽出)日本語訳スコア
Shiki Sato, Reina Akama, Hiroki Ouchi, Jun Suzuki, and Kentaro Inui. 佐藤四樹、赤間レイナ、大内弘樹、鈴木順、犬井健太郎。 0.49
2020. Evaluating dialogue generation systems via response selection. 2020. 応答選択による対話生成システムの評価 0.83
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 593–599, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 593–599, Online 0.67
Association for Computational Linguistics. Iulian Serban, Alessandro Sordoni, Yoshua Bengio, Aaron Courville, and Joelle Pineau. 計算言語学会会員。 Iulian Serban、Alessandro Sordoni、Yoshua Bengio、Aaron Courville、Joelle Pineau。 0.58
2016. Building end-to-end dialogue systems using generative hierarchical neural network models. 2016. 生成階層型ニューラルネットワークモデルを用いたエンドツーエンド対話システムの構築 0.78
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 30. The Proceedings of the AAAI Conference on Artificial Intelligence, Volume 30 (英語) 0.81
Iulian Serban, Alessandro Sordoni, Ryan Lowe, Laurent Charlin, Joelle Pineau, Aaron Courville, and Yoshua Bengio. Iulian Serban、Alessandro Sordoni、Ryan Lowe、Laurent Charlin、Joelle Pineau、Aaron Courville、Yoshua Bengio。
訳抜け防止モード: Iulian Serban, Alessandro Sordoni, Ryan Lowe, Laurent Charlin ジョエル・ピノー、アーロン・クールヴィル、ヨシュア・ベンジオ。
0.84
2017. A hierarchical latent variable encoder-decoder model for generating dialogues. 2017. 対話生成のための階層型潜在変数エンコーダ-デコーダモデル 0.79
Proceedings of the AAAI Conference on Artificial Intelligence, 31(1). aaai conference on artificial intelligence, 31(1) 参加報告 0.56
Eric Michael Smith, Mary Williamson, Kurt Shuster, Jason Weston, and Y-Lan Boureau. Eric Michael Smith、Mary Williamson、Kurt Shuster、Jason Weston、Y-Lan Boureau。 0.82
2020. Can you put it all together: Evaluating conversational agents’ ability to blend skills. 2020. 会話エージェントがスキルをブレンドする能力を評価することだ。 0.66
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2021–2030, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 2021–2030, Online 0.69
Association for Computational Linguistics. Congzheng Song, Alexander Rush, 計算言語学会会員。 Congzheng Song, Alexander Rush (英語) 0.66
and Vitaly Shmatikov. そして、Vitaly Shmatikov。 0.69
2020. Adversarial semantic collisions. 2020. 対訳 意味的衝突 0.70
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4198–4210, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 4198–4210, Online. 0.88
Association for Computational Linguistics. Megha Srivastava, Tatsunori Hashimoto, and Percy Liang. 計算言語学会会員。 Megha Srivastava, Tatsunori Hashimoto, Percy Liang 0.55
2020. Robustness to spurious correlations via human annotations. 2020. 人間のアノテーションによるスプリアス相関に対するロバスト性。 0.74
In International Conference on Machine Learning, pages 9109–9119. 国際機械学習会議において、9109-9119頁。 0.76
PMLR. Ilya Sutskever, Oriol Vinyals, and Quoc V Le. PMLR。 Ilya Sutskever、Oriol Vinyals、Quoc V Le。 0.71
2014. Sequence to sequence learning with neural networks. 2014. ニューラルネットワークを用いたシーケンスからシーケンスへの学習。 0.76
In Advances in Neural Information Processing Systems, volume 27, pages 3104–3112. 神経情報処理システムの進歩』27巻、3104-3112頁。 0.63
Curran Associates, Inc. Curran Associates, Inc. 0.85
Chongyang Tao, Lili Mou, Dongyan Zhao, and Rui Yan. Chongyang Tao, Lili Mou, Dongyan Zhao, Rui Yan 0.63
2018. Ruber: An unsupervised method for automatic evaluation of open-domain dialog systems. 2018. Ruber: オープンドメインダイアログシステムの自動評価のための教師なし手法。 0.81
Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, and Sameer Singh. Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh 0.70
2019. Universal adversarial triggers for attacking and analyzing NLP. 2019. NLPの攻撃と解析のための普遍的敵のトリガー。 0.74
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 2153–2162, Hong Kong, China. 第9回自然言語処理国際共同会議(emnlp-ijcnlp)第2153-2162ページ、香港、中国。
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して 2153-2162頁、香港、中国。
0.79
Association for Computational Linguistics. Taesun Whang, Dongyub Lee, Dongsuk Oh, Chanhee Lee, Kijong Han, Dong-hun Lee, and Saebyeok Lee. 計算言語学会会員。 Taesun Whang, Dongyub Lee, Dongsuk Oh, Chanhee Lee, Kijong Han, Dong-hun Lee, Saebyeok Lee 0.65
2021. Do response selection models really know what’s next? 2021. 応答選択モデルは次のことを本当に知っているだろうか? 0.75
utterance manipulation strategies for multi-turn response selection. 発話操作戦略 マルチターン応答選択。 0.64
In Proceedings of the AAAI Conference on Artificial Intelligence. AAAI Conference on Artificial Intelligence に参加して 0.67
Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander Rush. Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, Alexander Rush 0.81
2020. Transformers: State-of-the-art natural language processing. 2020. Transformers: 最先端の自然言語処理。 0.82
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 38–45, Online. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, page 38–45, Online 0.84
Association for Computational Linguistics. Thomas Wolf, Victor Sanh, Julien Chaumond, and Clement Delangue. 計算言語学会会員。 Thomas Wolf、Victor Sanh、Julien Chaumond、Clement Delangue。 0.59
2019. Transfertransfo: A transfer learning approach for neural network based conversational agents. 2019. Transfertransfo: ニューラルネットワークに基づく会話エージェントのためのトランスファー学習アプローチ。 0.86
ArXiv, abs/1901.08149. ArXiv, abs/1901.08149。 0.60
Tongshuang Wu, Marco Tulio Ribeiro, Jeffrey Heer, and Daniel S Weld. Tongshuang Wu、Marco Tulio Ribeiro、Jeffrey Heer、Daniel S Weld。 0.67
2021. Polyjuice: Automated, arXiv general-purpose counterfactual generation. 2021. polyjuice: 自動化されたarxiv汎用の偽生成。 0.71
preprint arXiv:2101.00288. arXiv:2101.00288 0.64
Yu Wu, Wei Wu, Chen Xing, Can Xu, Zhoujun Li, and Ming Zhou. ユウ、ウイ・ウー、チェン・シン、カン・チュ、周純、明周。 0.51
2019. A sequential matching framework for multi-turn response selection in retrieval-based chatbots. 2019. 検索型チャットボットにおけるマルチターン応答選択のための逐次マッチングフレームワーク 0.75
Computational Linguistics, 45(1):163–197. 計算言語学 45(1):163–197。 0.71
Sanghyun Yi, Rahul Goel, Chandra Khatri, Alessandra Cervone, Tagyoung Chung, Behnam Hedayatnia, Anu Venkatesh, Raefer Gabriel, and Dilek HakkaniTur. Sanghyun Yi, Rahul Goel, Chandra Khatri, Alessandra Cervone, Tagyoung Chung, Behnam Hedayatnia, Anu Venkatesh, Raefer Gabriel, Dilek HakkaniTur 0.75
2019. Towards coherent and engaging spoken dialog response generation using automatic converIn Proceedings of the 12th Insation evaluators. 2019. 第12回インシエーション・エバブリエータ自動コンバーリン手続きを用いた音声対話応答生成のコヒーレント化に向けて 0.77
ternational Conference on Natural Language Generation, pages 65–75, Tokyo, Japan. ternational Conference on Natural Language Generation, page 65-75, Tokyo, Japan 0.84
Association for Computational Linguistics. Chunyuan Yuan, Wei Zhou, Mingming Li, Shangwen Lv, Fuqing Zhu, Jizhong Han, and Songlin Hu. 計算言語学会会員。 チュンユアン元、ウェイ・周、ミンミン・李、シャンウェン・ルブ、フーキー・ズー、ジジョン・ハン、ソンリン・フー。 0.53
2019. Multi-hop selector network for multi-turn response selection in retrieval-based chatbots. 2019. 検索型チャットボットにおけるマルチターン応答選択のためのマルチホップセレクタネットワーク 0.72
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 111–120, Hong Kong, China. 第9回自然言語処理国際共同会議(emnlp-ijcnlp)第111-120ページ,香港,中国。
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して 111-120頁、香港、中国。
0.79
Association for Computational Linguistics. Huangzhao Zhang, Hao Zhou, Ning Miao, and Lei Li. 計算言語学会会員。 Huangzhao Zhang氏、Hao Zhou氏、Ning Miao氏、Lei Li氏。 0.62
2019. Generating fluent adversarial examples for In Proceedings of the 57th Annatural languages. 2019. In Proceedings of the 57th Annatural Language の流動的な逆説の生成 0.80
nual Meeting of the Association for Computational Linguistics, pages 5564–5569, Florence, Italy. The Association for Computational Linguistics, page 5564–5569, Florence, Italy 0.65
Association for Computational Linguistics. Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason Weston. 計算言語学会会員。 Saizheng Zhang、Emily Dinan、Jack Urbanek、Arthur Szlam、Douwe Kiela、Jason Weston。 0.61
2018. Personalizing dialogue agents: I have a dog, do you In Proceedings of the 56th Anhave pets too? 2018. 会話をパーソナライズするエージェント:私は犬を飼っています、あなたも第56回anhave petsのプロシージャにいますか? 0.76
nual Meeting of the Association for Computational アソシエーション・フォー・コンピュテーションのヌアル会議 0.52
英語(論文から抽出)日本語訳スコア
Linguistics (Volume 1: Long Papers), pages 2204– 2213, Melbourne, Australia. 言語学 (Volume 1: Long Papers), page 2204–2213, Melbourne, Australia. 0.86
Association for Computational Linguistics. Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, and Yoav Artzi. 計算言語学会会員。 Tianyi Zhang、Varsha Kishore、Felix Wu、Kilian Q. Weinberger、Yoav Artzi。 0.61
2020a. BERTScore: Evaluating text generation with BERT. 2020a BERTScore: BERTによるテキスト生成の評価。 0.82
In Proceedings of the International Conference on Learning Representations. International Conference on Learning Representations に参加して 0.67
Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, and Bill Dolan. Yizhe Zhang、Siqi Sun、Michel Galley、Yen-Chun Chen、Chris Brockett、Xiang Gao、Jianfeng Gao、Jingjing Liu、Bill Dolan。 0.77
2020b. Dialogpt: Large-scale generative pre-training for conversational response generation. 2020年。 Dialogpt:会話応答生成のための大規模生成前トレーニング。 0.72
In ACL, system demonstration. ACLでは、システムデモ。 0.80
Tianyu Zhao and Tatsuya Kawahara. Tianyu ZhaoとTatsuya Kawahara。 0.78
2020. Multireferenced training for dialogue response generation. 2020. 対話応答生成のためのマルチリファレンストレーニング 0.79
arXiv preprint arXiv:2009.07117. arXiv preprint arXiv:2009.07117。 0.64
Tianyu Zhao, Divesh Lala, and Tatsuya Kawahara. Tianyu Zhao、Divesh Lala、Tatsuya Kawahara。 0.65
2020. Designing precise and robust dialogue reIn Proceedings of the 58th Ansponse evaluators. 2020. 58th ansponse evaluatorsの高精度かつロバストな対話再生手順の設計 0.81
nual Meeting of the Association for Computational Linguistics, pages 26–33, Online. 計算言語学会(Association for Computational Linguistics、26-33頁、オンライン。 0.72
Association for Computational Linguistics. Xiangyang Zhou, Lu Li, Daxiang Dong, Yi Liu, Ying Chen, Wayne Xin Zhao, Dianhai Yu, and Hua Wu. 計算言語学会会員。 Xiangyang Zhou, Lu Li, Daxiang Dong, Yi Liu, Ying Chen, Wayne Xin Zhao, Dianhai Yu, Hua Wu 0.62
2018. Multi-turn response selection for chatbots with deep attention matching network. 2018. ディープアテンションマッチングネットワークを有するチャットボットのマルチターン応答選択 0.78
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1118–1127, Melbourne, Australia. 第56回計算言語学会年次大会(Volume 1: Long Papers)の報告, 1118-1127頁, メルボルン, オーストラリア 0.57
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
A Quality of negative candidates We perform a human evaluation experiment to test the number of false negative responses created by the different approaches. 否定的な候補者の質 異なるアプローチによって作り出された偽陰性反応の数をテストするために,人間による評価実験を行う。 0.74
Three in-house annotators were asked to go through the set of 5 adversarial negative responses from 5 different approaches for 100 randomly selected contexts. 3つの社内アノテータは、ランダムに選択された100のコンテキストに対して、5つの異なるアプローチから5つの反対応答のセットを通すよう求められた。
訳抜け防止モード: 内3名 ランダムに選択された100のコンテキストに対して 5つの異なるアプローチから 5つの負の反応のセットを通り抜ける。
0.73
They were instructed to report the number of responses which are appropriate responses for the context, which in this case is the number of false negatives. 彼らは、文脈に対する適切な応答である応答の数を報告するように指示され、この場合、偽陰性の回数である。 0.70
After annotating separately, annotators finally discussed the responses marked as appropriate and aggregated the results. アノテーションを別々にアノテートした後、アノテータは最終的に適切な応答を議論し、結果を集計した。 0.45
We observe that Human baselines responses had 2, Random baseline had 5, Maskand-fill had 3, Key-sem had 4 and BM25 had 10 false negative responses in the set of 500 responses (100 contexts, with 5 adversarial responses each). ヒトのベースライン応答が2,ランダムベースラインが5,マスand-fillが3,key-semが4,bm25が10の偽陰性反応を示した(100のコンテキストでそれぞれ5の敵応答)。 0.69
This shows that our approaches do not generate high number of false negatives. これは我々のアプローチが大量の偽陰性を生成するわけではないことを示している。 0.49
BM25 on the other hand leads to a relatively higher number of false negatives which can impede the learning process of the models. 一方、BM25は比較的多くの偽陰性をもたらすため、モデルの学習プロセスを阻害する可能性がある。 0.65
B Experiments with Masking マスキングによるb実験 0.85
We experiment with two procedures for masking in the Mask-and-fill approach: 1) Random masking, which masks contiguous chunks of tokens some probability p. We leverage the masking function from (Donahue et al , 2020) which can selectively mask spans at the granularities of words, n-grams, and sentences. マスク・アンド・フィル方式でマスクを行う2つの手法を実験した。1) トークンの連続した塊をマスクするランダムマスキング(ランダムマスキング) ; 単語,n-グラム,文の粒度を選択的にマスキングできる(Donahue et al , 2020) マスキング機能を利用する。 0.79
2) Importance masking, which keeps the most important tokens in a response relevant to the context and masks the rest. 2) 重要マスキング – コンテキストに関連する応答において最も重要なトークンを保持し、残りをマスキングする。 0.83
For Importance masking, we leverage the matching model from (Cai et al , 2019) which is trained to estimate the sequence-level quality s(q, r) of a response r for a given query q. 重要マスキングでは、与えられたクエリ q に対する応答 r のシーケンスレベルの品質 s(q, r) を推定するために訓練された (Cai et al , 2019) マッチングモデルを利用する。 0.78
They decompose the sequence level matching score between a context and a response into a set of token-level scores as follows: コンテキストと応答の間のシーケンスレベルのマッチングスコアを,次のようなトークンレベルのスコアに分解する。 0.71
s(q, r) = xT s(q, r) = xT 0.85
q W sxr m(cid:88) q W sxr m(cid:88) 0.85
= xT q W s ωk (rk + erk ) =xT q W s ωk (rk + erk ) 0.86
k=1 ωkxT q W s (rk + erk ) = k=1 ωkxT q W s (rk + erk ) = 0.74
m(cid:88) k=1 m(cid:88) k=1 0.71
= m(cid:88) = m(cid:88) 0.85
k=1 ωksk where sk = xT q W s (rk + erk ), and xr is the weighted sum of a Bert Transformer encoder outputs rk as well as their initial vector representations k=1 ωksk sk = xt q w s (rk + erk ) であり、xr は bert 変圧器エンコーダの重み付き和であり、その初期ベクトル表現も rk を出力する。 0.71
ek. The importance of each response token k to the context is estimated by sk. エック 各応答トークンkのコンテキストに対する重要性はskによって推定される。 0.49
We mask out any token with importance weight ωk less than the average ω and only retain tokens highly relevant to the context following Cai et al (2019). 重要な量 ωk が平均 ω より小さいトークンをマスキングし、Cai et al (2019) に続く文脈に非常に関係のあるトークンのみを保持する。 0.70
In our initial experiments we found that the Importance masking procedure lead to worse performance than Random masking. 最初の実験では、Importanceマスキングはランダムマスキングよりもパフォーマンスが悪くなっていることがわかった。 0.59
The adversarial test set accuracy on DailyDialog adversarial test set was 85.43% compared to the 87.45% accuracy using Random masking. DailyDialogの対数テストセットの対数テストセットの精度は、ランダムマスクを用いた87.45%の精度と比較して85.43%であった。 0.67
Our analyses showed that Importance masking masked out about 50% of the response tokens, and the infills generated by the ILM model were mostly poor in fluency as the number of masked tokens was high. 分析の結果,Importanceマスクは反応トークンの約50%をマスクし,ICMモデルで生成した埋没物はマスクトークンの数が多かったため,ほとんどが流速不良であった。 0.73
We therefore finally used Random masking for Mask-and-fill. そこでついにマスク・アンド・フィルにランダム・マスクを用いた。 0.47
C Sample Model Generated Responses In continuation of sample responses presented in Table 5 of the main paper, we present some more sample responses from different approaches along with Random and Human baseline responses in Table 6. 主論文の表5に示されるサンプル応答の継続におけるcサンプルモデル生成応答について,表6におけるランダムおよびヒューマンベースライン応答とともに,異なるアプローチによるサンプル応答について述べる。 0.83
D Additional Implementation Details For BM25 approach, we use the open source implementation from transformer rankers4. D 追加実装の詳細 BM25アプローチでは、トランスフォーマーローダ4からのオープンソース実装を使用します。 0.71
The DailyDialog++ dataset contains 16900 dialogue contexts but only 9259 of those have adversarial negative responses for the Human baseline. DailyDialog++データセットには16900の対話コンテキストが含まれているが、ヒューマンベースラインに対して逆の応答を持つのは9259人である。 0.56
For the results reported in Table 4, all approaches from Random and below use the Bert architecture and trained using DailyDialog domain data. 表4で報告された結果について、ランダムおよび下記からのすべてのアプローチはbertアーキテクチャを使用し、dailydialogドメインデータを使用してトレーニングされる。 0.59
Additionally, RUBER is also trained on the DailyDialog++ dataset. さらに、RUBERはDailyDialog++データセットでもトレーニングされている。 0.57
The approaches above Random in the table do not require training. テーブル上のRandom上のアプローチは、トレーニングを必要としない。 0.70
Each approach predicts a score for the set of 1500 responses created using a set of generative and retrieval models as detailed in section 4.2.2. 各アプローチは、第4.2.2に詳述した生成モデルおよび検索モデルを用いて作成された1500の応答の集合のスコアを予測する。 0.69
Sentence-Bert used in Semi-hard sampling scheme is fine-tuned on the datasets used in this paper. 本論文では,セミハードサンプリング方式で用いられる文節をデータセットに微調整する。 0.62
For the Mask-and-fill approach, the model takes in the following sequence of inputs: {[context] C1 [eot],.., [eot] Ch [response] r-with-blanks [infill] B1 [answer],.., Bl [answer]}, where Ch c=1 represents a context with h utterances, r the response and Bl b=1 are the tokens blanked in the response. マスク・アンド・フィルのアプローチでは、モデルは次の入力列を取る: {[context] c1 [eot], ..., [eot] ch [response] r-with-blanks [infill] b1 [answer], ..., bl [answer]} ここで ch c=1 はh発話のコンテキストを表し、r 応答と bl b=1 は応答中に空白のトークンである。 0.80
[eot] is used to indicate end of turn. [eot]はターンの終了を示すために使われる。 0.71
To generate a set of 5 adversarial responses in the Mask-andfill approach, we first create 4 masked versions Mask-andfillアプローチで5つの逆応答のセットを生成するために、まず4つのマスク付きバージョンを作成します。
訳抜け防止モード: マスク - andfill アプローチで5つの敵応答を生成する。 最初は4つのマスクバージョンを作り
0.73
4https://github.com/ Guzpenha/transformer rankers 4https://github.com/ Guzpenha/transformer rankers 0.42
英語(論文から抽出)日本語訳スコア
Context or Model Utterances 文脈またはモデル発話 0.72
Context Random Mask-and-fill 文脈 ランダム マスク・アンド・フィル 0.52
Key-sem Human Context キーセム 人間 文脈 0.58
Random Mask-and-fill ランダム マスク・アンド・フィル 0.50
Key-sem Human A: OK . キーセム 人間 A: OK。 0.65
Now I’ll put the dishes in the sink. さて、私は皿を流しに置きます。 0.64
B: Thank you . I’ll wash them. B:ありがとう。 私はそれらを洗う。 0.72
C: OK . Then I will clean the table. C: OK。 それからテーブルを掃除します。 0.78
(1) May I have your name and number, Sir? 1)お名前と電話番号をお持ちいただけますか、サー。 0.65
(2) Then I hope to get the other documents by end of the day. 2それから、他の書類を一日の終わりまでに入手したいと願っています。 0.58
(3) She is very experienced in that area, including all the years in college (4) I am in Computer Science department. (3)大学在学中を含め、この分野での経験が豊富で、(4)私はコンピュータサイエンス科に通っている。 0.72
(5) Sure, you can talk to him. (5) そうですね、彼と話せます。 0.70
(1) Ok. Thank you. 1)Ok。 ありがとうございます。 0.70
But, what are you going to do with him? しかし、彼はどうするつもりですか。 0.55
(2) Uh, it’s time to wake up. 2) うーん、目を覚ます時間だ。 0.48
I will clean it up and then go to bed. 私はそれを片付け、それから寝ます。 0.49
(3) Oh, thank you. (3)ああ、ありがとう。 0.69
You have helped a lot. あなたは多くの手助けをした。 0.73
(4) Don’t, thank you very much for saying it like that. (4)そんな言い方をしてくれてありがとう。 0.51
Only in your opinion do you have to wear proper clothes. あなたの意見では、あなたは適切な服を着なければならない。 0.58
(5) Yes, thank you! (5)はい、ありがとうございます! 0.82
But, i am not satisfied with the work you’ve done. しかし、私はあなたのした仕事に満足していません。 0.82
(1) Sorry, he didn’t put the dishes on the table. 1)すまないが、彼は皿をテーブルの上に置かなかった。 0.78
(2) Ok. We’ll clean up the room now. (2)おはようございます。今部屋を掃除します。 0.69
I can walk you through the process. 私は君をその過程まで歩ける。 0.69
(3) Don’t forget to wash the dishes and put away the clothes. 3)皿を洗って服を片付けるのを忘れないでください。 0.62
(4) In my field, i put on quite a few weight -bearing exercise in order to improve my lung capacity. (4)私のフィールドでは、肺の容量を改善するために、かなりの体重運動をしました。 0.77
(5) Thank you for your understanding. (5)ご理解ありがとうございました。 0.76
What are your recipes for tableware? 食器のレシピは何ですか。 0.67
(1) I just now saw the news that the boat was sinking due to heavy goods. 1)船が重荷のために沈んでいるというニュースが今見たばかりです。 0.68
(2) I want to thank my friend because he helped me to wash my dress at school camp. 2)学校のキャンプで私のドレスを洗うのを手伝ってくれたので、友人に感謝したい。 0.75
(3) Nowadays, table fans are getting very cheap online. (3)今日、テーブルファンはオンラインで非常に安くなっています。 0.70
(4) I know that using a facial scrub can make your skin look beautiful, clean and soft. 顔のスクラブを使って肌をきれいに、清潔に、柔らかに見せることができると私は知っています。
訳抜け防止モード: (4)それを知っている。 顔のスクラブを使って 肌をきれいに きれいに 柔らかいものにできる
0.80
(5) I gifted a sink to my friend for his house warming ceremony. (5)自宅の温暖化の儀式に友人にシンクを贈った。 0.68
A: Can you tell me what’s my responsibility in this position? a: この立場における私の責任について教えてください。 0.76
B: Yes, of course . B: もちろんです。 0.54
You would be responsible for the development of software products. ソフトウェア製品を開発する責任はあなたにあるでしょう。 0.75
C: I see . C: 分かりました。 0.79
This is my advantage. これは私の利点です。 0.75
(1) Okay! That sounds great to me. 1 オッケー! それは私にはすばらしく聞こえる。 0.47
(2) Well! How much will it cost per kg? (2) うーん! kgあたりの費用はいくらですか。 0.80
(3) Well! You can pay it on monthly or yearly basis, it is upto you. (3)はい! 月額または年額で支払いは可能だが、それはあなた次第だ。 0.73
(4) I usually spend those days with my family and it is quite fun you see. (4)私はいつもその日を家族と過ごしており、とても楽しいです。 0.76
(5) What type of games do you like to play? (5)どのタイプのゲームが好きですか。 0.67
(1) Yes. Maybe he is just looking for some publicity. 1)はい。 彼は単に宣伝を探しているだけかもしれない。 0.60
You are responsible, too. あなたも責任があります。 0.81
(2) I see. Then we will all get on our own. 2) なるほど。 では、私たちはみな自力でやります。 0.54
(3) That’s nice. (3)それはいいことだ。 0.84
And i would be willing to take them for that. そして、私は喜んで彼らを連れて行きます。 0.57
(4) You also have to work on the meetings to be more focused. (4) より集中するためには、ミーティングにも取り組む必要があります。 0.79
I need to add some training. トレーニングを追加する必要があります。 0.75
(5) What kind of software do they use now? (5) 現在どのようなソフトウェアを使っているのか? 0.86
(1) Let me see, in your brochure, what kind of promotion you’re promising? 1)あなたのパンフレットで、どんな宣伝を約束しているのか見てみましょう。 0.54
(2) Tell me about it. (2)それについて教えてください。 0.60
What do you think? あなたはどう思いますか。 0.66
Will you marry her? (3) Of course. 結婚してくれる? (3) もちろん。 0.62
Of course there are many things online. もちろん、オンラインではいろいろある。 0.65
Tell me about it. それについて教えてください。 0.49
(4) Yes, i appreciate your cooperation. (4)はい、ご協力に感謝いたします。 0.78
The development of the l / c is our utmost priority. l / c の開発が最優先事項です。 0.64
(5) Thank you. (5)ありがとうございました。 0.76
I do want to get him a diamond ring. 私は彼にダイヤモンドの指輪を贈りたい。 0.75
He’s responsible for development of the etv. 彼はevの開発に責任がある。 0.62
(1) Of course, the museum is in the closing stage because of financial issues. (1)もちろん、財政上の問題により閉館段階にある。 0.54
(2) I was searching on some websites for the junior engineer position to develop my knowledge in the hardware field. 2)ハードウェア分野の知識を育成するために,シニアエンジニアという立場のwebサイトを検索していた。 0.83
(3) I see, is there any terms and condition that I have to sign for this position in your company? (3)あなたの会社でこの地位にサインしなければならない条件や条件はありますか。 0.68
(4) Of course, you must provide me the full details about our company’s financial position by today evening. (4)もちろん、今日の夕方までには、当社の財務状況に関する詳細を私に提供しなければなりません。 0.74
(5) Of course, My friend is very much interested to work in a software company. (5) もちろん、私の友人はソフトウェア会社で働くことに非常に興味を持っています。 0.83
Can you give him a chance in your company? 彼にあなたの会社でチャンスをくれませんか。 0.67
Table 6: Outputs from different approaches for negative response set creation. 表6: 負の応答セット生成のための異なるアプローチからの出力。 0.78
Random responses are unrelated to the contexts. ランダム応答はコンテキストとは無関係である。 0.68
Mask-and-fill and Key-sem approaches create responses which are highly similar to the content of the contexts, and hence the model needs to learn factors important for response coherence and appropriateness such as presence of correct entities, time expressions, strategies and others. マスク・アンド・フィルとキー・セムのアプローチは、コンテキストの内容と非常に類似した応答を生成するため、モデルは、正しいエンティティの存在、時間表現、戦略など、応答の一貫性と適切性にとって重要な要素を学ぶ必要がある。
訳抜け防止モード: マスク - and-fill and key - semアプローチは応答を生み出す 文脈の内容と非常に似ています そのため、モデルは、正しいエンティティの存在、時間表現、戦略など、応答コヒーレンスおよび適切性にとって重要な要素を学習する必要があります。
0.63
of every utterance related to the context (Rg, Uc and Re). 文脈に関連するすべての発話(Rg、Uc、Re)。 0.64
ILM model then generates 4 infills per masked utterance. ILMモデルは、マスク付き発話毎に4つのインフィルを生成する。 0.57
Thus each utterance gets 16 different modified versions. それぞれの発話には16種類の修正版がある。 0.62
All these modified utterances are then ranked using the lm-scorer library and we select the top 5. これらの修正された発話はlm-scorerライブラリを使ってランク付けされ、トップ5を選択する。 0.63
BM25 similarity is used to create the retrieved response set. BM25の類似性は、検索された応答セットを作成するために使用される。 0.50
For the Keyword-guided approaches, the model is given as input the context C, keywords from the ground truth response K, and the ground truth response r as shown in Figure 2. キーワード誘導アプローチでは、図2に示すように、コンテキストC、基底真理応答Kからのキーワード、基底真理応答rの入力としてモデルが与えられる。 0.72
Specifically, the model takes in the following sequence of inputs - {[context] C1 [eot],.., [eot] Ch [keywords] K1 [sep],..,[sep] Kn [response] r}. 具体的には、モデルは次の入力列を取る: {[context] c1 [eot], ..., [eot] ch [keywords] k1 [sep], ..., [sep] kn [response] r}。
訳抜け防止モード: 具体的には、以下の入力シーケンスをモデルが取ります。 { [ context ] C1 [ eot ], .., [ eot ] Ch [ keywords ] K1 [ sep], .,[sep] ] Kn [ response ] r } である。
0.83
For both ap- ap- 0.35
英語(論文から抽出)日本語訳スコア
proaches during training, positive responses and negative responses are interleaved, i.e. トレーニング中は、ポジティブな反応とネガティブな反応がインターリーブされる。 0.57
each positive response is followed by one random and one adversarial response. 各正の応答にはランダムな応答と逆応答が続く。 0.70
                                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。