Fugu-MT 論文翻訳(概要): DynaEval: Unifying Turn and Dialogue Level Evaluation

論文の概要: DynaEval: Unifying Turn and Dialogue Level Evaluation

arxiv url: http://arxiv.org/abs/2106.01112v1
Date: Wed, 2 Jun 2021 12:23:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-03 14:32:10.576839
Title: DynaEval: Unifying Turn and Dialogue Level Evaluation
Title（参考訳）: DynaEval: ターンと対話レベルの統一評価
Authors: Chen Zhang, Yiming Chen, Luis Fernando D'Haro, Yan Zhang, Thomas Friedrichs, Grandee Lee, Haizhou Li
Abstract要約: 統合された自動評価フレームワークDynaEvalを提案する。ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
参考スコア（独自算出の注目度）: 60.66883575106898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A dialogue is essentially a multi-turn interaction among interlocutors. Effective evaluation metrics should reflect the dynamics of such interaction. Existing automatic metrics are focused very much on the turn-level quality, while ignoring such dynamics. To this end, we propose DynaEval, a unified automatic evaluation framework which is not only capable of performing turn-level evaluation, but also holistically considers the quality of the entire dialogue. In DynaEval, the graph convolutional network (GCN) is adopted to model a dialogue in totality, where the graph nodes denote each individual utterance and the edges represent the dependency between pairs of utterances. A contrastive loss is then applied to distinguish well-formed dialogues from carefully constructed negative samples. Experiments show that DynaEval significantly outperforms the state-of-the-art dialogue coherence model, and correlates strongly with human judgements across multiple dialogue evaluation aspects at both turn and dialogue level.
Abstract（参考訳）: 対話は本質的には対話者間のマルチターン対話である。効果的な評価基準は、そのような相互作用のダイナミクスを反映すべきである。既存の自動メトリクスはターンレベルの品質に非常に重点を置いています。そこで本研究では,ターンレベルの評価を行うだけでなく,対話全体の質を総合的に検討できる統一的な自動評価フレームワークdynaevalを提案する。 dynaevalでは、グラフ畳み込みネットワーク(graph convolutional network, gcn)が、グラフノードが個々の発話を表現し、エッジが1対の発話間の依存関係を表すトータルな対話をモデル化するために採用されている。対照的な損失は、慎重に構築された負のサンプルとよく形成された対話を区別するために適用される。実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れており,旋回・対話レベルの複数の対話評価面において,人間の判断と強く相関していることがわかった。

関連論文リスト

Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons [11.961955016373379]
TD-EVAL (Turn and Dialogue-level Evaluation) は2段階評価フレームワークであり、詳細なターンレベル解析を総合的な対話レベル比較と統合する。 TD-EVALは,従来の測定値の誤りを効果的に識別することを示す。また、従来の言語モデルや大規模言語モデルに基づくメトリクスよりも、人間の判断との整合性も向上している。
論文参考訳（メタデータ） (2025-04-28T16:57:17Z)
Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要な会話動作を体系的に評価するベンチマークである。音声対話のモデリングを推進し、よりインタラクティブで自然な対話システムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T18:59:16Z)
ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。 ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文参考訳（メタデータ） (2024-06-17T05:51:04Z)
Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文参考訳（メタデータ） (2024-04-15T17:56:39Z)
Toward More Accurate and Generalizable Evaluation Metrics for Task-Oriented Dialogs [19.43845920149182]
ダイアログ品質と呼ばれる新しいダイアログレベルのアノテーションワークフローを導入する。 DQAの専門家アノテータは、ダイアログ全体の品質を評価し、ゴール完了やユーザ感情などの属性に対するラベルダイアログも評価する。我々は,大規模音声アシスタントプラットフォームにおける対話品質を評価する上で,高品質なヒューマンアノテートデータを持つことが重要であると論じている。
論文参考訳（メタデータ） (2023-06-06T19:43:29Z)
What Went Wrong? Explaining Overall Dialogue Quality through Utterance-Level Impacts [15.018259942339448]
本稿では,ユーザ・システム間相互作用と対話品質の関係を学習する会話ログの自動解析手法を提案する。提案手法は,発話レベルのアノテーションを使わずに,ユーザ評価全体からインタラクションの影響を学習する。実験により,我々のモデルからの自動解析が専門家の判断と一致していることが示され,このような発話レベルの品質予測の弱い教師付き学習が達成可能であることを示す最初の方法となった。
論文参考訳（メタデータ） (2021-10-31T19:12:29Z)
WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。 2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文参考訳（メタデータ） (2021-08-01T08:00:45Z)
GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating Open-Domain Dialogue Systems [133.13117064357425]
自動対話評価のためのグラフ強調表現のための新しい評価指標GRADEを提案する。具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。実験の結果,GRADEは多様な対話モデルの測定において,他の最先端の指標よりも優れていた。
論文参考訳（メタデータ） (2020-10-08T14:07:32Z)
Is this Dialogue Coherent? Learning from Dialogue Acts and Entities [82.44143808977209]
スイッチボード・コヒーレンス・コーパス(SWBD-Coh)コーパス(Switchboard Coherence corpus,SWBD-Coh)を作成する。コーパスの統計的分析は、ターンコヒーレンス知覚がエンティティの分布パターンによってどのように影響を受けるかを示している。 DA情報とエンティティ情報を組み合わせたモデルでは,応答選択とターンコヒーレンス評価の両面で最高の性能が得られることがわかった。
論文参考訳（メタデータ） (2020-06-17T21:02:40Z)
Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文参考訳（メタデータ） (2020-05-15T05:20:06Z)
Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文参考訳（メタデータ） (2020-05-01T20:01:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。