論文の概要: GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating
Open-Domain Dialogue Systems
- arxiv url: http://arxiv.org/abs/2010.03994v1
- Date: Thu, 8 Oct 2020 14:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:16:54.787386
- Title: GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating
Open-Domain Dialogue Systems
- Title(参考訳): GRADE:オープンドメイン対話システム評価のためのグラフ拡張コヒーレンスメトリック
- Authors: Lishan Huang, Zheng Ye, Jinghui Qin, Liang Lin, Xiaodan Liang
- Abstract要約: 自動対話評価のためのグラフ強調表現のための新しい評価指標GRADEを提案する。
具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。
実験の結果,GRADEは多様な対話モデルの測定において,他の最先端の指標よりも優れていた。
- 参考スコア(独自算出の注目度): 133.13117064357425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically evaluating dialogue coherence is a challenging but high-demand
ability for developing high-quality open-domain dialogue systems. However,
current evaluation metrics consider only surface features or utterance-level
semantics, without explicitly considering the fine-grained topic transition
dynamics of dialogue flows. Here, we first consider that the graph structure
constituted with topics in a dialogue can accurately depict the underlying
communication logic, which is a more natural way to produce persuasive metrics.
Capitalized on the topic-level dialogue graph, we propose a new evaluation
metric GRADE, which stands for Graph-enhanced Representations for Automatic
Dialogue Evaluation. Specifically, GRADE incorporates both coarse-grained
utterance-level contextualized representations and fine-grained topic-level
graph representations to evaluate dialogue coherence. The graph representations
are obtained by reasoning over topic-level dialogue graphs enhanced with the
evidence from a commonsense graph, including k-hop neighboring representations
and hop-attention weights. Experimental results show that our GRADE
significantly outperforms other state-of-the-art metrics on measuring diverse
dialogue models in terms of the Pearson and Spearman correlations with human
judgements. Besides, we release a new large-scale human evaluation benchmark to
facilitate future research on automatic metrics.
- Abstract(参考訳): 対話コヒーレンスの自動評価は、高品質なオープンドメイン対話システムを開発する上で難しいが、要求の高い能力である。
しかし、現在の評価指標は、対話フローの詳細なトピック遷移ダイナミクスを明示的に考慮することなく、表面的特徴や発話レベルの意味論のみを考慮する。
本稿ではまず,対話中の話題からなるグラフ構造が,説得力のあるメトリクスを生成するためのより自然な方法である基礎となるコミュニケーション論理を正確に表現できると考える。
トピックレベルの対話グラフに着目し,対話の自動評価のためのグラフエンハンス表現を表す新しい評価基準のグレードを提案する。
具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。
グラフ表現は、kホップ隣接表現やホップアテンション重みを含むコモンセンスグラフの証拠により強化されたトピックレベルの対話グラフを推論することによって得られる。
実験の結果, ピアソンとスピアマンの相関関係から, 対話モデルの多種多様な測定において, 評価基準が有意な差を示した。
また、自動メトリクスの今後の研究を促進するために、新しい大規模人体評価ベンチマークをリリースする。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - A Graph-to-Text Approach to Knowledge-Grounded Response Generation in
Human-Robot Interaction [2.3590037806133024]
本稿では,対話状態のグラフベース表現に基づく人間-ロボット間相互作用の新しい対話モデルを提案する。
ユーザの発話に応答するために使用されるニューラルネットワークモデルは、シンプルだが効果的なグラフ・トゥ・テキスト機構に依存している。
提案手法はヒューマノイドロボットを用いたユーザスタディにより実験的に評価される。
論文 参考訳(メタデータ) (2023-11-03T15:44:28Z) - GraphWOZ: Dialogue Management with Conversational Knowledge Graphs [2.938377447673471]
本稿では,対話状態のコア表現として会話知識グラフを用いた対話管理手法を提案する。
我々は、人間の参加者が受付係として働くロボットと対話するウィザード・オブ・オズの対話を含む新しいデータセット、GraphWOZを導入する。
論文 参考訳(メタデータ) (2022-11-23T10:53:21Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Discovering Dialog Structure Graph for Open-Domain Dialog Generation [51.29286279366361]
chitchat corporaの対話構造を無監督で発見します。
次に、下流システムでのダイアログ生成を容易にするために利用します。
本稿では,グラフニューラルネットワーク(DVAE-GNN)を用いた離散変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-31T10:58:37Z) - Dialogue Relation Extraction with Document-level Heterogeneous Graph
Attention Networks [21.409522845011907]
対話関係抽出(DRE)は,多人数対話で言及される2つのエンティティ間の関係を検出することを目的としている。
本稿では,グラフが有意に接続された話者,エンティティ,エンティティタイプ,発話ノードを含むDREのためのグラフ注意ネットワーク方式を提案する。
このグラフに基づくアプローチは,対話における異なるエンティティペア間の関係を効果的に捉え,最先端のアプローチよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-09-10T18:51:48Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。