論文の概要: DynaEval: Unifying Turn and Dialogue Level Evaluation
- arxiv url: http://arxiv.org/abs/2106.01112v2
- Date: Thu, 3 Jun 2021 07:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:30:20.849958
- Title: DynaEval: Unifying Turn and Dialogue Level Evaluation
- Title(参考訳): DynaEval: ターンと対話レベルの統一評価
- Authors: Chen Zhang, Yiming Chen, Luis Fernando D'Haro, Yan Zhang, Thomas
Friedrichs, Grandee Lee, Haizhou Li
- Abstract要約: 統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 60.66883575106898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A dialogue is essentially a multi-turn interaction among interlocutors.
Effective evaluation metrics should reflect the dynamics of such interaction.
Existing automatic metrics are focused very much on the turn-level quality,
while ignoring such dynamics. To this end, we propose DynaEval, a unified
automatic evaluation framework which is not only capable of performing
turn-level evaluation, but also holistically considers the quality of the
entire dialogue. In DynaEval, the graph convolutional network (GCN) is adopted
to model a dialogue in totality, where the graph nodes denote each individual
utterance and the edges represent the dependency between pairs of utterances. A
contrastive loss is then applied to distinguish well-formed dialogues from
carefully constructed negative samples. Experiments show that DynaEval
significantly outperforms the state-of-the-art dialogue coherence model, and
correlates strongly with human judgements across multiple dialogue evaluation
aspects at both turn and dialogue level.
- Abstract(参考訳): 対話は本質的には対話者間のマルチターン対話である。
効果的な評価基準は、そのような相互作用のダイナミクスを反映すべきである。
既存の自動メトリクスはターンレベルの品質に非常に重点を置いています。
そこで本研究では,ターンレベルの評価を行うだけでなく,対話全体の質を総合的に検討できる統一的な自動評価フレームワークdynaevalを提案する。
dynaevalでは、グラフ畳み込みネットワーク(graph convolutional network, gcn)が、グラフノードが個々の発話を表現し、エッジが1対の発話間の依存関係を表すトータルな対話をモデル化するために採用されている。
対照的な損失は、慎重に構築された負のサンプルとよく形成された対話を区別するために適用される。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れており,旋回・対話レベルの複数の対話評価面において,人間の判断と強く相関していることがわかった。
関連論文リスト
- ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。
シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。
ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文 参考訳(メタデータ) (2024-06-17T05:51:04Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - Toward More Accurate and Generalizable Evaluation Metrics for
Task-Oriented Dialogs [19.43845920149182]
ダイアログ品質と呼ばれる新しいダイアログレベルのアノテーションワークフローを導入する。
DQAの専門家アノテータは、ダイアログ全体の品質を評価し、ゴール完了やユーザ感情などの属性に対するラベルダイアログも評価する。
我々は,大規模音声アシスタントプラットフォームにおける対話品質を評価する上で,高品質なヒューマンアノテートデータを持つことが重要であると論じている。
論文 参考訳(メタデータ) (2023-06-06T19:43:29Z) - What Went Wrong? Explaining Overall Dialogue Quality through
Utterance-Level Impacts [15.018259942339448]
本稿では,ユーザ・システム間相互作用と対話品質の関係を学習する会話ログの自動解析手法を提案する。
提案手法は,発話レベルのアノテーションを使わずに,ユーザ評価全体からインタラクションの影響を学習する。
実験により,我々のモデルからの自動解析が専門家の判断と一致していることが示され,このような発話レベルの品質予測の弱い教師付き学習が達成可能であることを示す最初の方法となった。
論文 参考訳(メタデータ) (2021-10-31T19:12:29Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating
Open-Domain Dialogue Systems [133.13117064357425]
自動対話評価のためのグラフ強調表現のための新しい評価指標GRADEを提案する。
具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。
実験の結果,GRADEは多様な対話モデルの測定において,他の最先端の指標よりも優れていた。
論文 参考訳(メタデータ) (2020-10-08T14:07:32Z) - Is this Dialogue Coherent? Learning from Dialogue Acts and Entities [82.44143808977209]
スイッチボード・コヒーレンス・コーパス(SWBD-Coh)コーパス(Switchboard Coherence corpus,SWBD-Coh)を作成する。
コーパスの統計的分析は、ターンコヒーレンス知覚がエンティティの分布パターンによってどのように影響を受けるかを示している。
DA情報とエンティティ情報を組み合わせたモデルでは,応答選択とターンコヒーレンス評価の両面で最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-17T21:02:40Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。