論文の概要: SelF-Eval: Self-supervised Fine-grained Dialogue Evaluation
- arxiv url: http://arxiv.org/abs/2208.08094v1
- Date: Wed, 17 Aug 2022 06:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:38:52.327942
- Title: SelF-Eval: Self-supervised Fine-grained Dialogue Evaluation
- Title(参考訳): 自己評価 : 自己教師付ききめ細かな対話評価
- Authors: Longxuan Ma and Ziyu Zhuang and Weinan Zhang and Mingda Li and Ting
Liu
- Abstract要約: 本稿では, 自己教師型細粒度対話評価フレームワーク(SelF-Eval)について紹介する。
中心となる考え方は、ターン品質とダイアログ品質全体の相関をモデル化することである。
複数のベンチマーク実験の結果、SelF-Evalは人間の評価と非常に一致していることがわかった。
- 参考スコア(独自算出の注目度): 26.70346097937032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel Self-supervised Fine-grained Dialogue
Evaluation framework (SelF-Eval). The core idea is to model the correlation
between turn quality and the entire dialogue quality. We first propose a novel
automatic data construction method that can automatically assign fine-grained
scores for arbitrarily dialogue data. Then we train \textbf{SelF-Eval} with a
multi-level contrastive learning schema which helps to distinguish different
score levels. Experimental results on multiple benchmarks show that SelF-Eval
is highly consistent with human evaluations and better than the
state-of-the-art models. We give a detailed analysis of the experiments in this
paper. Our code and data will be published on GitHub.
- Abstract(参考訳): 本稿では,自己教師型細粒度対話評価フレームワーク(SelF-Eval)を紹介する。
中心となるアイデアは、ターン品質と対話品質全体の相関をモデル化することだ。
まず,任意の対話データに微粒なスコアを自動的に割り当てる新しい自動データ構築手法を提案する。
次に、異なるスコアレベルを識別するのに役立つマルチレベルコントラスト学習スキーマで、 \textbf{SelF-Eval} をトレーニングする。
複数のベンチマーク実験の結果、SelF-Evalは人間の評価と高度に一致しており、最先端のモデルよりも優れていることが示された。
本稿では,実験の詳細な解析を行う。
コードとデータはGitHubで公開される予定です。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Semi-Supervised Dialogue Abstractive Summarization via High-Quality
Pseudolabel Selection [27.531083525683243]
半教師あり対話要約(SSDS)は、人ラベルデータへの依存を減らすためにモデル生成要約を利用する。
要約モデルの品質の3つの主次元をカプセル化した新しいスコアリング手法SiCFを提案する。
論文 参考訳(メタデータ) (2024-03-06T22:06:23Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Improving Open-Domain Dialogue Evaluation with a Causal Inference Model [8.625569782672663]
明示的な満足度評価はユーザーから引き出すことができるが、ユーザーは質問された時に評価を提供しないことが多い。
専門家によるポストホック評価は代替案だが、これらは高価で複雑だ。
本稿では,オープンドメイン対話のエキスパート評価とユーザ評価の両方を予測する自動手法の開発について検討する。
論文 参考訳(メタデータ) (2023-01-31T02:31:42Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for
Automatic Dialog Evaluation [69.03658685761538]
オープンドメインダイアログシステム評価はダイアログ研究における最も重要な課題の1つである。
本稿では,自動評価モデルCMADEを提案する。
実験の結果,対話比較作業においてCMADEの精度は89.2%であった。
論文 参考訳(メタデータ) (2020-05-21T15:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。