論文の概要: DEAM: Dialogue Coherence Evaluation using AMR-based Semantic
Manipulations
- arxiv url: http://arxiv.org/abs/2203.09711v1
- Date: Fri, 18 Mar 2022 03:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 01:32:06.691456
- Title: DEAM: Dialogue Coherence Evaluation using AMR-based Semantic
Manipulations
- Title(参考訳): DEAM: AMRを用いた意味操作を用いた対話コヒーレンス評価
- Authors: Sarik Ghazarian, Nuan Wen, Aram Galstyan, Nanyun Peng
- Abstract要約: 不整合データ生成のためのAMRに基づく意味操作に依存する対話評価指標を提案する。
実験の結果,DEAMは基準法と比較して,人間の判断と高い相関性が得られることがわかった。
- 参考スコア(独自算出の注目度): 46.942369532632604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluation metrics are essential for the rapid development of
open-domain dialogue systems as they facilitate hyper-parameter tuning and
comparison between models. Although recently proposed trainable
conversation-level metrics have shown encouraging results, the quality of the
metrics is strongly dependent on the quality of training data. Prior works
mainly resort to heuristic text-level manipulations (e.g. utterances shuffling)
to bootstrap incoherent conversations (negative examples) from coherent
dialogues (positive examples). Such approaches are insufficient to
appropriately reflect the incoherence that occurs in interactions between
advanced dialogue models and humans. To tackle this problem, we propose DEAM, a
Dialogue coherence Evaluation metric that relies on Abstract Meaning
Representation (AMR) to apply semantic-level Manipulations for incoherent
(negative) data generation. AMRs naturally facilitate the injection of various
types of incoherence sources, such as coreference inconsistency, irrelevancy,
contradictions, and decrease engagement, at the semantic level, thus resulting
in more natural incoherent samples. Our experiments show that DEAM achieves
higher correlations with human judgments compared to baseline methods on
several dialog datasets by significant margins. We also show that DEAM can
distinguish between coherent and incoherent dialogues generated by baseline
manipulations, whereas those baseline models cannot detect incoherent examples
generated by DEAM. Our results demonstrate the potential of AMR-based semantic
manipulations for natural negative example generation.
- Abstract(参考訳): ハイパーパラメータチューニングとモデルの比較を容易にするため,オープンドメイン対話システムの迅速な開発には,自動評価指標が不可欠である。
最近提案されたトレーニング可能な会話レベルのメトリクスは、奨励的な結果を示しているが、メトリクスの品質はトレーニングデータの品質に大きく依存している。
先行研究は主にヒューリスティックなテキストレベルの操作(例えば、発話シャッフル)を利用して、一貫性のない会話(否定的な例)をコヒーレントな対話(肯定的な例)からブートストラップする。
このようなアプローチは、高度な対話モデルと人間の相互作用において生じる不整合を適切に反映するには不十分である。
この問題を解決するために,抽象的意味表現(AMR)に依存した対話コヒーレンス評価尺度DEAMを提案し,非一貫性(負)データ生成に意味レベルの操作を適用する。
AMRは自然に、コア参照の不整合、無関係、矛盾、エンゲージメントの減少といった様々な種類の不整合源をセマンティックレベルで注入しやすくすることで、より自然な不整合サンプルをもたらす。
実験の結果,DeAMは,複数のダイアログデータセットの基準手法と比較して,人間の判断との相関性が高いことがわかった。
また,DAMはベースライン操作によって生成されるコヒーレントな対話と非コヒーレントな対話を区別できるが,これらのベースラインモデルはDAMが生成する非コヒーレントな例を検出できないことを示す。
本研究は,自然負例生成のためのamrに基づく意味的操作の可能性を示す。
関連論文リスト
- Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation [26.330012489735456]
本稿では,オープンドメイン対話評価のための効果的なフレームワークを提案する。
抽象的意味表現(AMR)知識と拡張されたドメイン固有言語モデル(SLM)と大規模言語モデル(LLM)を組み合わせる。
オープンドメイン対話評価タスクの実験結果から,提案手法の優位性を示した。
論文 参考訳(メタデータ) (2024-04-01T14:11:45Z) - PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。
PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。
また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-04-01T09:35:06Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Synthesizing Adversarial Negative Responses for Robust Response Ranking
and Evaluation [34.52276336319678]
オープンドメインニューラルダイアログモデルは、応答のランク付けと評価タスクにおいて高い性能を達成している。
コンテンツ類似性への過度な依存は、モデルが不整合の存在に敏感でないようにする。
本稿では,逆負の学習データを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2021-06-10T16:20:55Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。