論文の概要: Hi Model, generating 'nice' instead of 'good' is not as bad as
generating 'rice'! Towards Context and Semantic Infused Dialogue Generation
Loss Function and Evaluation Metric
- arxiv url: http://arxiv.org/abs/2309.05804v1
- Date: Mon, 11 Sep 2023 20:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 15:20:47.240296
- Title: Hi Model, generating 'nice' instead of 'good' is not as bad as
generating 'rice'! Towards Context and Semantic Infused Dialogue Generation
Loss Function and Evaluation Metric
- Title(参考訳): モデルでは、'良い'ではなく'ニセ'を生成するのは、'ライス'を生成するほど悪くない!
文脈と意味を融合した対話生成損失関数と評価指標
- Authors: Abhisek Tiwari, Muhammed Sinan, Kaushik Roy, Amit Sheth, Sriparna Saha
and Pushpak Bhattacharyya
- Abstract要約: 本稿では,Semantic Infused Contextualized diaLogue (SemTextualLogue) ロス関数を提案する。
また、文脈関連性と意味的適切性の両方を取り入れた、Dialuationと呼ばれる新しい評価基準を定式化した。
- 参考スコア(独自算出の注目度): 49.0231934996271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past two decades, dialogue modeling has made significant strides,
moving from simple rule-based responses to personalized and persuasive response
generation. However, despite these advancements, the objective functions and
evaluation metrics for dialogue generation have remained stagnant, i.e.,
cross-entropy and BLEU, respectively. These lexical-based metrics have the
following key limitations: (a) word-to-word matching without semantic
consideration: It assigns the same credit for failure to generate 'nice' and
'rice' for 'good'. (b) missing context attribute for evaluating the generated
response: Even if a generated response is relevant to the ongoing dialogue
context, it may still be penalized for not matching the gold utterance provided
in the corpus. In this paper, we first investigate these limitations
comprehensively and propose a new loss function called Semantic Infused
Contextualized diaLogue (SemTextualLogue) loss function. Furthermore, we
formulate a new evaluation metric called Dialuation, which incorporates both
context relevance and semantic appropriateness while evaluating a generated
response. We conducted experiments on two benchmark dialogue corpora,
encompassing both task-oriented and open-domain scenarios. We found that the
dialogue generation model trained with SemTextualLogue loss attained superior
performance (in both quantitative and qualitative evaluation) compared to the
traditional cross-entropy loss function across the datasets and evaluation
metrics.
- Abstract(参考訳): 過去20年間で、対話モデリングは、単純なルールベースの応答からパーソナライズされた説得力のある応答生成へと大きく前進してきた。
しかし、これらの進歩にもかかわらず、対話生成の目的関数と評価指標はそれぞれ停滞しており、すなわちクロスエントロピーとBLEUである。
これらの語彙ベースのメトリクスには、以下の重要な制限がある。
(a)意味的配慮のない単語間マッチング:「ニケ」と「米」を「良い」で生成できなかった場合と同じクレジットを割り当てる。
b) 生成した応答を評価するための欠落したコンテキスト属性:生成した応答が進行中の対話コンテキストと関係があるとしても、コーパスで提供された金の発話と一致しない場合にペナルティを課すことができる。
本稿では,これらの制約を包括的に検討し,Semantic Infused Contextualized diaLogue (SemTextualLogue) と呼ばれる新たな損失関数を提案する。
さらに,生成した応答を評価しながら,文脈関連性と意味的適切性の両方を取り入れたDialuationと呼ばれる新しい評価指標を定式化する。
タスク指向とオープンドメインの両方のシナリオを含む2つのベンチマーク対話コーパスの実験を行った。
その結果,SemTextualLogue損失をトレーニングした対話生成モデルは,従来のクロスエントロピー損失関数と比較して,(定量的および定性的な評価において)優れた性能を示した。
関連論文リスト
- X-ReCoSa: Multi-Scale Context Aggregation For Multi-Turn Dialogue
Generation [0.0]
マルチターン対話生成では、応答は文脈の話題や背景だけでなく、文脈の文中の単語やフレーズにも関係している。
現在広く使われている階層型ダイアログモデルは、単語レベルのエンコーダから出力される文表現を無視して、発話レベルのエンコーダからの文脈表現のみに依存している。
本稿では,階層型ダイアログモデルのためのマルチスケールコンテキスト情報を集約する,新しいダイアログモデルX-ReCoSaを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:15:52Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。