論文の概要: Hi Model, generating 'nice' instead of 'good' is not as bad as
generating 'rice'! Towards Context and Semantic Infused Dialogue Generation
Loss Function and Evaluation Metric
- arxiv url: http://arxiv.org/abs/2309.05804v1
- Date: Mon, 11 Sep 2023 20:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 15:20:47.240296
- Title: Hi Model, generating 'nice' instead of 'good' is not as bad as
generating 'rice'! Towards Context and Semantic Infused Dialogue Generation
Loss Function and Evaluation Metric
- Title(参考訳): モデルでは、'良い'ではなく'ニセ'を生成するのは、'ライス'を生成するほど悪くない!
文脈と意味を融合した対話生成損失関数と評価指標
- Authors: Abhisek Tiwari, Muhammed Sinan, Kaushik Roy, Amit Sheth, Sriparna Saha
and Pushpak Bhattacharyya
- Abstract要約: 本稿では,Semantic Infused Contextualized diaLogue (SemTextualLogue) ロス関数を提案する。
また、文脈関連性と意味的適切性の両方を取り入れた、Dialuationと呼ばれる新しい評価基準を定式化した。
- 参考スコア(独自算出の注目度): 49.0231934996271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past two decades, dialogue modeling has made significant strides,
moving from simple rule-based responses to personalized and persuasive response
generation. However, despite these advancements, the objective functions and
evaluation metrics for dialogue generation have remained stagnant, i.e.,
cross-entropy and BLEU, respectively. These lexical-based metrics have the
following key limitations: (a) word-to-word matching without semantic
consideration: It assigns the same credit for failure to generate 'nice' and
'rice' for 'good'. (b) missing context attribute for evaluating the generated
response: Even if a generated response is relevant to the ongoing dialogue
context, it may still be penalized for not matching the gold utterance provided
in the corpus. In this paper, we first investigate these limitations
comprehensively and propose a new loss function called Semantic Infused
Contextualized diaLogue (SemTextualLogue) loss function. Furthermore, we
formulate a new evaluation metric called Dialuation, which incorporates both
context relevance and semantic appropriateness while evaluating a generated
response. We conducted experiments on two benchmark dialogue corpora,
encompassing both task-oriented and open-domain scenarios. We found that the
dialogue generation model trained with SemTextualLogue loss attained superior
performance (in both quantitative and qualitative evaluation) compared to the
traditional cross-entropy loss function across the datasets and evaluation
metrics.
- Abstract(参考訳): 過去20年間で、対話モデリングは、単純なルールベースの応答からパーソナライズされた説得力のある応答生成へと大きく前進してきた。
しかし、これらの進歩にもかかわらず、対話生成の目的関数と評価指標はそれぞれ停滞しており、すなわちクロスエントロピーとBLEUである。
これらの語彙ベースのメトリクスには、以下の重要な制限がある。
(a)意味的配慮のない単語間マッチング:「ニケ」と「米」を「良い」で生成できなかった場合と同じクレジットを割り当てる。
b) 生成した応答を評価するための欠落したコンテキスト属性:生成した応答が進行中の対話コンテキストと関係があるとしても、コーパスで提供された金の発話と一致しない場合にペナルティを課すことができる。
本稿では,これらの制約を包括的に検討し,Semantic Infused Contextualized diaLogue (SemTextualLogue) と呼ばれる新たな損失関数を提案する。
さらに,生成した応答を評価しながら,文脈関連性と意味的適切性の両方を取り入れたDialuationと呼ばれる新しい評価指標を定式化する。
タスク指向とオープンドメインの両方のシナリオを含む2つのベンチマーク対話コーパスの実験を行った。
その結果,SemTextualLogue損失をトレーニングした対話生成モデルは,従来のクロスエントロピー損失関数と比較して,(定量的および定性的な評価において)優れた性能を示した。
関連論文リスト
- Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - X-ReCoSa: Multi-Scale Context Aggregation For Multi-Turn Dialogue
Generation [0.0]
マルチターン対話生成では、応答は文脈の話題や背景だけでなく、文脈の文中の単語やフレーズにも関係している。
現在広く使われている階層型ダイアログモデルは、単語レベルのエンコーダから出力される文表現を無視して、発話レベルのエンコーダからの文脈表現のみに依存している。
本稿では,階層型ダイアログモデルのためのマルチスケールコンテキスト情報を集約する,新しいダイアログモデルX-ReCoSaを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:15:52Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - $Q^{2}$: Evaluating Factual Consistency in Knowledge-Grounded Dialogues
via Question Generation and Question Answering [38.951535576102906]
ナレッジベース対話モデルにおける事実整合性のための自動評価指標を提案する。
当社のメトリクスは、共参照解像度と自然言語推論機能を利用しています。
We curate a novel dataset of state-of-the-art dialogue system outputs for the Wizard-of-Wikipedia dataset。
論文 参考訳(メタデータ) (2021-04-16T16:21:16Z) - On the Use of Linguistic Features for the Evaluation of Generative
Dialogue Systems [17.749995931459136]
言語的特徴に基づく指標は,人間の判断と良好な相関を維持し,解釈可能であることを示唆する。
この提案を支持するために,複数の対話モデルによって生成された対話のさまざまな言語的特徴を計測し,分析する。
特徴の振る舞いはテストされたモデルの既知の特性と一致し、ドメイン間で類似していることが分かりました。
論文 参考訳(メタデータ) (2021-04-13T16:28:00Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。