論文の概要: Overview of Robust and Multilingual Automatic Evaluation Metrics for
Open-Domain Dialogue Systems at DSTC 11 Track 4
- arxiv url: http://arxiv.org/abs/2306.12794v3
- Date: Thu, 14 Sep 2023 01:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 18:38:46.743042
- Title: Overview of Robust and Multilingual Automatic Evaluation Metrics for
Open-Domain Dialogue Systems at DSTC 11 Track 4
- Title(参考訳): DSTC11トラック4におけるオープンドメイン対話システムのロバストおよび多言語自動評価指標の概要
- Authors: Mario Rodr\'iguez-Cantelar and Chen Zhang and Chengguang Tang and Ke
Shi and Sarik Ghazarian and Jo\~ao Sedoc and Luis Fernando D'Haro and
Alexander Rudnicky
- Abstract要約: 第11回対話システム技術チャレンジ(DSTC11)のこのトラックは、堅牢で多言語による自動評価のメトリクスを促進するために進行中の取り組みの一部である。
本稿では、参加者に提供するデータセットとベースラインについて述べ、提案した2つのサブタスクの提出と結果の詳細について論じる。
- 参考スコア(独自算出の注目度): 51.142614461563184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent and fast development of neural networks have revolutionized the
research on dialogue systems and subsequently have triggered various challenges
regarding their automatic evaluation. Automatic evaluation of open-domain
dialogue systems as an open challenge has been the center of the attention of
many researchers. Despite the consistent efforts to improve automatic metrics'
correlations with human evaluation, there have been very few attempts to assess
their robustness over multiple domains and dimensions. Also, their focus is
mainly on the English language. All of these challenges prompt the development
of automatic evaluation metrics that are reliable in various domains,
dimensions, and languages. This track in the 11th Dialogue System Technology
Challenge (DSTC11) is part of the ongoing effort to promote robust and
multilingual automatic evaluation metrics. This article describes the datasets
and baselines provided to participants and discusses the submission and result
details of the two proposed subtasks.
- Abstract(参考訳): ニューラルネットワークの出現と急速な発展は対話システムの研究に革命をもたらし、その後、その自動評価に関する様々な課題を引き起こした。
オープンチャレンジとしてのオープンドメイン対話システムの自動評価は、多くの研究者の注目を集めている。
自動メトリクスと人的評価の相関性を改善するための一貫した努力にもかかわらず、複数の領域や次元に対する堅牢性を評価する試みはごくわずかである。
また、主に英語に焦点が当てられている。
これらの課題はすべて、さまざまなドメイン、ディメンション、言語に信頼性のある自動評価メトリクスの開発を促す。
第11回対話システム技術チャレンジ(DSTC11)のこのトラックは、堅牢で多言語による自動評価のメトリクスを促進する取り組みの一環である。
本稿では、参加者に提供するデータセットとベースラインについて述べ、提案した2つのサブタスクの提出と結果の詳細について論じる。
関連論文リスト
- DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Simple LLM Prompting is State-of-the-Art for Robust and Multilingual
Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。
実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2023-08-31T15:19:28Z) - Evaluating Open-Domain Dialogues in Latent Space with Next Sentence
Prediction and Mutual Information [18.859159491548006]
オープンドメイン対話のための新しい学習ベース自動評価指標(CMN)を提案する。
条件付き変分オートエンコーダ(CVAE)をNext Sentence Prediction(NSP)の対象とし,相互情報(MI)を用いて潜在空間におけるテキストの意味的類似性をモデル化する。
2つのオープンドメイン対話データセットの実験結果は、幅広いベースラインと比較して、我々の手法の優位性を示している。
論文 参考訳(メタデータ) (2023-05-26T14:21:54Z) - Intent Induction from Conversations for Task-Oriented Dialogue Track at
DSTC 11 [9.084206563428655]
このチャレンジトラックは、第11回ダイアログシステム技術チャレンジの一環として開催された。
現実的な環境で顧客意図の自動誘導方法を評価することを目的としたベンチマークを導入する。
タスク評価に適した3つのデータセットを提案し,簡単なベースラインを提案する。
論文 参考訳(メタデータ) (2023-04-25T16:45:50Z) - PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment [58.46761798403072]
モデルベース自動対話評価基準(ADEM)は,複数の領域にわたって良好に機能することが期待される。
大きな進歩にもかかわらず、ある領域でうまく機能するADEMは必ずしも他の領域に一般化するとは限らない。
本稿では,共有トランスフォーマーエンコーダと軽量アダプタの集合からなるPanel of Experts (PoE)ネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-18T02:26:50Z) - MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue
Evaluation [66.60285024216573]
対話評価器はドメイン間の評価も行うことが期待される。
最先端自動対話評価指標(ADM)の多くはマルチドメイン評価のために設計されていない。
私たちはこの問題に対処するための汎用的で堅牢なフレームワークMDD-Evalを設計する動機があります。
論文 参考訳(メタデータ) (2021-12-14T07:01:20Z) - Automatic Evaluation and Moderation of Open-domain Dialogue Systems [59.305712262126264]
研究者が悩む長きにわたる課題は、効果的な自動評価指標の欠如である。
本稿では, 対話システム技術チャレンジ10(DSTC10)におけるトラック5で得られたデータ, ベースライン, 結果について述べる。
論文 参考訳(メタデータ) (2021-11-03T10:08:05Z) - A Comprehensive Assessment of Dialog Evaluation Metrics [9.34612743192798]
標準言語評価指標は、ダイアログを評価するのに有効ではない。
近年の研究では、人間の判断とよく相関する、対話特有の新しい指標がいくつか提案されている。
本稿では,最近提案された対話評価指標を包括的に評価する。
論文 参考訳(メタデータ) (2021-06-07T15:17:03Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。