論文の概要: Hi Model, generating 'nice' instead of 'good' is not as bad as generating 'rice'! Towards Context and Semantic Infused Dialogue Generation Loss Function and Evaluation Metric
- arxiv url: http://arxiv.org/abs/2309.05804v2
- Date: Wed, 29 May 2024 18:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 23:52:32.291414
- Title: Hi Model, generating 'nice' instead of 'good' is not as bad as generating 'rice'! Towards Context and Semantic Infused Dialogue Generation Loss Function and Evaluation Metric
- Title(参考訳): Hi Model, generating 'nice' without 'good' is not bad as generate 'rice'!
- Authors: Abhisek Tiwari, Muhammed Sinan, Kaushik Roy, Amit Sheth, Sriparna Saha, Pushpak Bhattacharyya,
- Abstract要約: 本稿では,Semantic Infused Contextualized diaLogue (SemTextualLogue) ロス関数を提案する。
また、文脈と意味的関連性の両方を取り入れて、Dialuationと呼ばれる評価指標を定式化する。
- 参考スコア(独自算出の注目度): 46.26506372710482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past two decades, dialogue modeling has made significant strides, moving from simple rule-based responses to personalized and persuasive response generation. However, despite these advancements, the objective functions and evaluation metrics for dialogue generation have remained stagnant. These lexical-based metrics, e.g., cross-entropy and BLEU, have two key limitations: (a) word-to-word matching without semantic consideration: It assigns the same credit for failure to generate "nice" and "rice" for "good", (b) missing context attribute for evaluating the generated response: Even if a generated response is relevant to the ongoing dialogue context, it may still be penalized for not matching the gold utterance provided in the corpus. In this paper, we first investigate these limitations comprehensively and propose a new loss function called Semantic Infused Contextualized diaLogue (SemTextualLogue) loss function. We also formulate an evaluation metric called Dialuation, incorporating both context and semantic relevance. We experimented with both non-pretrained and pre-trained models on two dialogue corpora, encompassing task-oriented and open-domain scenarios. We found that the dialogue generation models trained with SemTextualLogueloss attained superior performance compared to the traditional cross-entropy loss function. The findings establish that the effective training of a dialogue generation model hinges significantly on incorporating semantics and context. This pattern is also mirrored in the introduced Dialuation metric, where the consideration of both context and semantics correlates more strongly with human evaluation compared to traditional metrics.
- Abstract(参考訳): 過去20年間、対話モデリングは、単純なルールベースの応答からパーソナライズされ説得力のある応答生成へと、大きな進歩を遂げてきた。
しかし,これらの進歩にもかかわらず,対話生成の目的関数と評価指標はいまだに停滞している。
これらの語彙ベースのメトリクス、例えばクロスエントロピーとBLEUには2つの重要な制限がある。
(a)意味的考慮のない単語間マッチング:「ニセ」と「ライス」を「良い」に生成できないために同じクレジットを割り当てる
(b) 生成された応答を評価するための欠落したコンテキスト属性: 生成された応答が進行中の対話コンテキストに関連しているとしても、コーパスで提供される金の発話にマッチしないよう罰せられることがある。
本稿では,これらの制約を包括的に検討し,Semantic Infused Contextualized diaLogue (SemTextualLogue)ロス関数と呼ばれる新たな損失関数を提案する。
また、文脈と意味的関連性の両方を取り入れて、Dialuationと呼ばれる評価指標を定式化する。
課題指向シナリオとオープンドメインシナリオを含む2つの対話コーパス上で,事前学習モデルと事前学習モデルの両方を実験した。
SemTextualLoguelossで訓練した対話生成モデルは,従来のクロスエントロピー損失関数よりも優れた性能を示した。
その結果、対話生成モデルの効果的な訓練は、意味論と文脈を取り入れることに大きく依存していることが判明した。
このパターンは、従来のメトリクスと比較して、文脈と意味の両方の考慮が人間の評価と強く相関する、導入されたダイアリュージョンメトリックにも反映されている。
関連論文リスト
- X-ReCoSa: Multi-Scale Context Aggregation For Multi-Turn Dialogue
Generation [0.0]
マルチターン対話生成では、応答は文脈の話題や背景だけでなく、文脈の文中の単語やフレーズにも関係している。
現在広く使われている階層型ダイアログモデルは、単語レベルのエンコーダから出力される文表現を無視して、発話レベルのエンコーダからの文脈表現のみに依存している。
本稿では,階層型ダイアログモデルのためのマルチスケールコンテキスト情報を集約する,新しいダイアログモデルX-ReCoSaを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:15:52Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。