論文の概要: DEAM: Dialogue Coherence Evaluation using AMR-based Semantic
Manipulations
- arxiv url: http://arxiv.org/abs/2203.09711v1
- Date: Fri, 18 Mar 2022 03:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 01:32:06.691456
- Title: DEAM: Dialogue Coherence Evaluation using AMR-based Semantic
Manipulations
- Title(参考訳): DEAM: AMRを用いた意味操作を用いた対話コヒーレンス評価
- Authors: Sarik Ghazarian, Nuan Wen, Aram Galstyan, Nanyun Peng
- Abstract要約: 不整合データ生成のためのAMRに基づく意味操作に依存する対話評価指標を提案する。
実験の結果,DEAMは基準法と比較して,人間の判断と高い相関性が得られることがわかった。
- 参考スコア(独自算出の注目度): 46.942369532632604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluation metrics are essential for the rapid development of
open-domain dialogue systems as they facilitate hyper-parameter tuning and
comparison between models. Although recently proposed trainable
conversation-level metrics have shown encouraging results, the quality of the
metrics is strongly dependent on the quality of training data. Prior works
mainly resort to heuristic text-level manipulations (e.g. utterances shuffling)
to bootstrap incoherent conversations (negative examples) from coherent
dialogues (positive examples). Such approaches are insufficient to
appropriately reflect the incoherence that occurs in interactions between
advanced dialogue models and humans. To tackle this problem, we propose DEAM, a
Dialogue coherence Evaluation metric that relies on Abstract Meaning
Representation (AMR) to apply semantic-level Manipulations for incoherent
(negative) data generation. AMRs naturally facilitate the injection of various
types of incoherence sources, such as coreference inconsistency, irrelevancy,
contradictions, and decrease engagement, at the semantic level, thus resulting
in more natural incoherent samples. Our experiments show that DEAM achieves
higher correlations with human judgments compared to baseline methods on
several dialog datasets by significant margins. We also show that DEAM can
distinguish between coherent and incoherent dialogues generated by baseline
manipulations, whereas those baseline models cannot detect incoherent examples
generated by DEAM. Our results demonstrate the potential of AMR-based semantic
manipulations for natural negative example generation.
- Abstract(参考訳): ハイパーパラメータチューニングとモデルの比較を容易にするため,オープンドメイン対話システムの迅速な開発には,自動評価指標が不可欠である。
最近提案されたトレーニング可能な会話レベルのメトリクスは、奨励的な結果を示しているが、メトリクスの品質はトレーニングデータの品質に大きく依存している。
先行研究は主にヒューリスティックなテキストレベルの操作(例えば、発話シャッフル)を利用して、一貫性のない会話(否定的な例)をコヒーレントな対話(肯定的な例)からブートストラップする。
このようなアプローチは、高度な対話モデルと人間の相互作用において生じる不整合を適切に反映するには不十分である。
この問題を解決するために,抽象的意味表現(AMR)に依存した対話コヒーレンス評価尺度DEAMを提案し,非一貫性(負)データ生成に意味レベルの操作を適用する。
AMRは自然に、コア参照の不整合、無関係、矛盾、エンゲージメントの減少といった様々な種類の不整合源をセマンティックレベルで注入しやすくすることで、より自然な不整合サンプルをもたらす。
実験の結果,DeAMは,複数のダイアログデータセットの基準手法と比較して,人間の判断との相関性が高いことがわかった。
また,DAMはベースライン操作によって生成されるコヒーレントな対話と非コヒーレントな対話を区別できるが,これらのベースラインモデルはDAMが生成する非コヒーレントな例を検出できないことを示す。
本研究は,自然負例生成のためのamrに基づく意味的操作の可能性を示す。
関連論文リスト
- AMRFact: Enhancing Summarization Factuality Evaluation with AMR-driven
Training Data Generation [63.18211192998151]
本稿では,現実的に一貫性のない要約を生成する新しいフレームワークであるAMRFactを提案する。
提案手法は, 現実的に正しい要約をAMRグラフに解析し, 否定的な例を生成するために制御された事実矛盾を注入する。
提案手法は,AggreFact-SOTAデータセットにおいて,従来のシステムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Evaluating Open-Domain Dialogues in Latent Space with Next Sentence
Prediction and Mutual Information [18.859159491548006]
オープンドメイン対話のための新しい学習ベース自動評価指標(CMN)を提案する。
条件付き変分オートエンコーダ(CVAE)をNext Sentence Prediction(NSP)の対象とし,相互情報(MI)を用いて潜在空間におけるテキストの意味的類似性をモデル化する。
2つのオープンドメイン対話データセットの実験結果は、幅広いベースラインと比較して、我々の手法の優位性を示している。
論文 参考訳(メタデータ) (2023-05-26T14:21:54Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Synthesizing Adversarial Negative Responses for Robust Response Ranking
and Evaluation [34.52276336319678]
オープンドメインニューラルダイアログモデルは、応答のランク付けと評価タスクにおいて高い性能を達成している。
コンテンツ類似性への過度な依存は、モデルが不整合の存在に敏感でないようにする。
本稿では,逆負の学習データを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2021-06-10T16:20:55Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z) - Filtering Noisy Dialogue Corpora by Connectivity and Content Relatedness [44.632752961462636]
本稿では,その接続性と関連性の観点から,発話対の品質を評価する手法を提案する。
提案手法によりフィルタリングされたトレーニングデータにより,応答生成における神経対話エージェントの品質が向上することが実験的に確認された。
論文 参考訳(メタデータ) (2020-04-29T08:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。