論文の概要: xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2310.08958v1
- Date: Fri, 13 Oct 2023 09:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 13:44:20.160043
- Title: xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark
- Title(参考訳): xdial-eval:多言語オープンドメイン対話評価ベンチマーク
- Authors: Chen Zhang, Luis Fernando D'Haro, Chengguang Tang, Ke Shi, Guohua
Tang, Haizhou Li
- Abstract要約: 我々は,オープンソースの英語対話評価データセット上に構築されたxDial-Evalを紹介する。
xDial-Evalには12のターンレベルと6のダイアログレベルの英語データセットが含まれており、それぞれ14930のアノテート・ターンと8691のアノテート・ダイアログで構成されている。
xDial-Evalでは、従来のBERTベースのメトリクスと最近導入された大規模言語モデルの包括的な分析を行う。
- 参考スコア(独自算出の注目度): 39.81588409521846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in reference-free learned metrics for open-domain
dialogue evaluation have been driven by the progress in pre-trained language
models and the availability of dialogue data with high-quality human
annotations. However, current studies predominantly concentrate on English
dialogues, and the generalization of these metrics to other languages has not
been fully examined. This is largely due to the absence of a multilingual
dialogue evaluation benchmark. To address the issue, we introduce xDial-Eval,
built on top of open-source English dialogue evaluation datasets. xDial-Eval
includes 12 turn-level and 6 dialogue-level English datasets, comprising 14930
annotated turns and 8691 annotated dialogues respectively. The English dialogue
data are extended to nine other languages with commercial machine translation
systems. On xDial-Eval, we conduct comprehensive analyses of previous
BERT-based metrics and the recently-emerged large language models. Lastly, we
establish strong self-supervised and multilingual baselines. In terms of
average Pearson correlations over all datasets and languages, the best baseline
outperforms OpenAI's ChatGPT by absolute improvements of 6.5% and 4.6% at the
turn and dialogue levels respectively, albeit with much fewer parameters. The
data and code are publicly available at https://github.com/e0397123/xDial-Eval.
- Abstract(参考訳): オープンドメイン対話評価のための参照なし学習メトリクスの最近の進歩は、事前訓練された言語モデルの進歩と、高品質な人間のアノテーションによる対話データの可用性によって推進されている。
しかし、現在の研究は主に英語の対話に集中しており、これらのメトリクスを他の言語に一般化することは十分に検討されていない。
これは主に多言語対話評価ベンチマークが欠落しているためである。
この問題に対処するために、オープンソースの英語対話評価データセット上に構築されたxDial-Evalを紹介する。
xdial-evalは、12のターンレベルと6つの対話レベルの英語データセットを含み、それぞれ14930の注釈付きターンと8691の注釈付き対話からなる。
英語の対話データは、商用機械翻訳システムを持つ9言語に拡張される。
xDial-Evalでは、従来のBERTベースのメトリクスと最近導入された大規模言語モデルの包括的な分析を行う。
最後に,強い自己監督と多言語ベースラインを確立する。
すべてのデータセットと言語の平均的なピアソン相関については、最も優れたベースラインがOpenAIのChatGPTよりも、ターンレベルとダイアログレベルでそれぞれ6.5%と4.6%向上している。
データとコードはhttps://github.com/e0397123/xdial-evalで公開されている。
関連論文リスト
- Dialogue Quality and Emotion Annotations for Customer Support
Conversations [7.218791626731783]
本稿では、二言語的顧客サポート会話の文脈における感情と会話品質に対する全体論的アノテーションアプローチを提案する。
これは、テキスト分類モデルの開発に、ユニークで価値のあるリソースを提供する。
論文 参考訳(メタデータ) (2023-11-23T10:56:14Z) - DiQAD: A Benchmark Dataset for End-to-End Open-domain Dialogue
Assessment [38.26039323208791]
オープンドメインの対話品質を自動的に評価するための大規模対話品質評価データセット(DiQAD)をリリースする。
具体的には,対話の質に関する人間の判断に適合する寸法に基づいて,評価基準を確立する。
また、これらの基準に基づいて実際のユーザ間で会話する大規模な対話を注釈付けし、約10万の対話を含む。
論文 参考訳(メタデータ) (2023-10-25T03:04:57Z) - Towards Multilingual Automatic Dialogue Evaluation [9.264022699972621]
堅牢な多言語対話評価尺度の開発における主な制限要因は、多言語データの欠如である。
本稿では,強い多言語事前学習 LLM を活用し,機械翻訳を用いて既存の英会話データを増大させることにより,このデータ不足の回避策を提案する。
我々は,事前学習した多言語エンコーダモデルを翻訳データで微調整するという素質的なアプローチは,ソースデータのみを用いて多言語モデルを微調整する強力なベースラインを上回るには不十分であることを実証的に示す。
論文 参考訳(メタデータ) (2023-08-31T15:15:26Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Contextual Semantic Parsing for Multilingual Task-Oriented Dialogues [7.8378818005171125]
1つの言語で大規模な対話データセットをセットすると、機械翻訳を用いて他の言語に対して効果的な意味を自動生成できる。
本稿では、スロット値の忠実な翻訳を保証するために、アライメント付き対話データセットの自動翻訳を提案する。
簡潔な表現が翻訳誤りの複合効果を減少させることを示す。
論文 参考訳(メタデータ) (2021-11-04T01:08:14Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。