論文の概要: Investigating the Impact of Pre-trained Language Models on Dialog
Evaluation
- arxiv url: http://arxiv.org/abs/2110.01895v1
- Date: Tue, 5 Oct 2021 09:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:16:01.000493
- Title: Investigating the Impact of Pre-trained Language Models on Dialog
Evaluation
- Title(参考訳): 事前学習言語モデルがダイアログ評価に及ぼす影響の検討
- Authors: Chen Zhang, Luis Fernando D'Haro, Yiming Chen, Thomas Friedrichs,
Haizhou Li
- Abstract要約: 本稿では,8種類のPr-LMについて検討し,それらが3つの典型的な自動対話評価指標に与える影響について検討する。
Pr-LMの選択が自動メトリクスのパフォーマンスにどのように影響するかを分析する。
本研究は,異なるPr-LMが自動ダイアログ評価に与える影響を総合的に評価する最初の試みである。
- 参考スコア(独自算出の注目度): 63.14483705538468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there is a surge of interest in applying pre-trained language
models (Pr-LM) in automatic open-domain dialog evaluation. Pr-LMs offer a
promising direction for addressing the multi-domain evaluation challenge. Yet,
the impact of different Pr-LMs on the performance of automatic metrics is not
well-understood. This paper examines 8 different Pr-LMs and studies their
impact on three typical automatic dialog evaluation metrics across three
different dialog evaluation benchmarks. Specifically, we analyze how the choice
of Pr-LMs affects the performance of automatic metrics. Extensive correlation
analyses on each of the metrics are performed to assess the effects of
different Pr-LMs along various axes, including pre-training objectives, dialog
evaluation criteria, model size, and cross-dataset robustness. This study
serves as the first comprehensive assessment of the effects of different Pr-LMs
on automatic dialog evaluation.
- Abstract(参考訳): 近年,自動オープンドメインダイアログ評価における事前学習言語モデル(Pr-LM)の適用への関心が高まっている。
Pr-LMはマルチドメイン評価問題に対処するための有望な方向を提供する。
しかし、異なるPr-LMが自動メトリクスのパフォーマンスに与える影響はよく理解されていない。
本稿では8種類のpr-lmについて検討し、3つの異なるダイアログ評価ベンチマークにおける3つの典型的なダイアログ評価指標への影響について検討する。
具体的には,Pr-LMの選択が自動メトリクスの性能に与える影響を分析する。
各指標の総合的相関分析を行い、事前学習目標、対話評価基準、モデルサイズ、データセット間の堅牢性など、様々な軸に沿って異なるPr-LMの効果を評価する。
本研究は,異なるPr-LMが自動ダイアログ評価に与える影響を総合的に評価する最初の試みである。
関連論文リスト
- An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue [1.8652965834931452]
本研究では,人間と機械の対話における応答生成作業におけるLarge Language Models (LLMs) の限界について検討する。
我々は,異なる対話型に適用する場合に,異なるLLM適応手法を広範囲に分析する。
論文 参考訳(メタデータ) (2024-06-10T15:52:49Z) - LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation [17.38671584773247]
本研究では,大規模言語モデル(LLM)を用いた対話評価における即時設計の効果について検討する。
理由と得点の順序はLLMのスコアに大きく影響し,「理性優先」アプローチによりより包括的評価が得られた。
論文 参考訳(メタデータ) (2024-06-05T02:25:10Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain
Conversations with Large Language Models [28.441725610692714]
大規模言語モデル(LLM)を用いたオープンドメイン会話のための多次元自動評価手法を提案する。
単一のモデルコールにおける会話品質の多次元を網羅する統合評価スキーマを利用する単一プロンプトベースの評価手法を設計する。
各種ベンチマークデータセットを用いたLCM-Evalの性能評価を行い,その有効性,効率,適応性について,最先端評価法と比較した。
論文 参考訳(メタデータ) (2023-05-23T05:57:09Z) - FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。
サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。
既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2022-10-25T08:26:03Z) - MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue
Evaluation [66.60285024216573]
対話評価器はドメイン間の評価も行うことが期待される。
最先端自動対話評価指標(ADM)の多くはマルチドメイン評価のために設計されていない。
私たちはこの問題に対処するための汎用的で堅牢なフレームワークMDD-Evalを設計する動機があります。
論文 参考訳(メタデータ) (2021-12-14T07:01:20Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。