論文の概要: Deconstruct to Reconstruct a Configurable Evaluation Metric for
Open-Domain Dialogue Systems
- arxiv url: http://arxiv.org/abs/2011.00483v1
- Date: Sun, 1 Nov 2020 11:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 22:55:07.598076
- Title: Deconstruct to Reconstruct a Configurable Evaluation Metric for
Open-Domain Dialogue Systems
- Title(参考訳): オープンドメイン対話システムのための構成可能な評価基準の再構築
- Authors: Vitou Phy, Yang Zhao and Akiko Aizawa
- Abstract要約: オープンドメイン対話では、全体的な品質は、関連性、特異性、共感など、さまざまな側面から成り立っている。
既存のメトリクスは、そのような柔軟性に対処するように設計されていません。
そこで本研究では,USL-Hと呼ばれる単一メトリクスを得るために,各アスペクトを合成する簡単な手法を提案する。
- 参考スコア(独自算出の注目度): 36.73648357051916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many automatic evaluation metrics have been proposed to score the overall
quality of a response in open-domain dialogue. Generally, the overall quality
is comprised of various aspects, such as relevancy, specificity, and empathy,
and the importance of each aspect differs according to the task. For instance,
specificity is mandatory in a food-ordering dialogue task, whereas fluency is
preferred in a language-teaching dialogue system. However, existing metrics are
not designed to cope with such flexibility. For example, BLEU score
fundamentally relies only on word overlapping, whereas BERTScore relies on
semantic similarity between reference and candidate response. Thus, they are
not guaranteed to capture the required aspects, i.e., specificity. To design a
metric that is flexible to a task, we first propose making these qualities
manageable by grouping them into three groups: understandability, sensibleness,
and likability, where likability is a combination of qualities that are
essential for a task. We also propose a simple method to composite metrics of
each aspect to obtain a single metric called USL-H, which stands for
Understandability, Sensibleness, and Likability in Hierarchy. We demonstrated
that USL-H score achieves good correlations with human judgment and maintains
its configurability towards different aspects and metrics.
- Abstract(参考訳): オープンドメイン対話における応答の全体的な品質を評価するために,多くの自動評価指標が提案されている。
一般に、全体的な品質は、関連性、特異性、共感などの様々な側面で構成され、各側面の重要性はタスクによって異なる。
例えば、食品注文対話タスクでは特異性が必須であり、言語教育対話システムでは流布が好ましい。
しかし、既存のメトリクスはそのような柔軟性に対応するように設計されていない。
例えば、bleuスコアは単語の重複のみに依存し、bertscoreは参照と候補応答の間の意味的類似性に依存している。
したがって、それらは要求される側面、すなわち特異性を捉えることが保証されない。
タスクに柔軟であるメトリクスを設計するために、まず、これらの品質を3つのグループに分けて管理できるようにすることを提案する。
また,各側面のメトリクスを合成し,usl-hと呼ばれる,階層の理解性,知覚性,責任性を表す1つの指標を得るための簡易な手法を提案する。
我々は、USL-Hスコアが人間の判断と良好な相関を達成し、異なる側面やメトリクスに対する構成可能性を維持することを示した。
関連論文リスト
- Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation [18.049566239050762]
優れた評価指標は、シミュレーション生成(SG)の研究を導くビーコンのようなものである
そこで我々は,SGタスクの総合的かつ自動評価システムであるHAを確立する。
私たちのメトリクスは、以前の自動メトリクスと比較して、各視点からの人間の評価と著しく相関しています。
論文 参考訳(メタデータ) (2023-06-13T06:06:01Z) - NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist [20.448405494617397]
Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
論文 参考訳(メタデータ) (2023-05-15T11:51:55Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z) - Meta-evaluation of Conversational Search Evaluation Metrics [15.942419892035124]
我々は様々な会話検索指標を体系的にメタ評価する。
METEORは、すべての3つの視点を考慮して、最も優れた既存のシングルターンメトリックです。
また、適応セッションベースの評価指標を使用して、マルチターン会話検索を測定することも示します。
論文 参考訳(メタデータ) (2021-04-27T20:01:03Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。