論文の概要: KddRES: A Multi-level Knowledge-driven Dialogue Dataset for Restaurant
Towards Customized Dialogue System
- arxiv url: http://arxiv.org/abs/2011.08772v3
- Date: Tue, 14 Dec 2021 06:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 15:45:21.823784
- Title: KddRES: A Multi-level Knowledge-driven Dialogue Dataset for Restaurant
Towards Customized Dialogue System
- Title(参考訳): kddres:カスタマイズされた対話システムに向けたレストラン向け多レベル知識駆動対話データセット
- Authors: Hongru Wang, Min Li, Zimo Zhou, Gabriel Pui Cheong Fung, Kam-Fai Wong
- Abstract要約: 香港でREStaurant(KddRES)のための知識駆動型対話データセットを初めて公開する。
我々のコーパスには、地域によって異なる10のレストランから派生した0.8kの会話が含まれている。
ベンチマーク実験とデータ統計分析は、我々のデータセットの多様性と豊富なアノテーションを示している。
- 参考スコア(独自算出の注目度): 14.082407074319757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared with CrossWOZ (Chinese) and MultiWOZ (English) dataset which have
coarse-grained information, there is no dataset which handle fine-grained and
hierarchical level information properly. In this paper, we publish a first
Cantonese knowledge-driven Dialogue Dataset for REStaurant (KddRES) in Hong
Kong, which grounds the information in multi-turn conversations to one specific
restaurant. Our corpus contains 0.8k conversations which derive from 10
restaurants with various styles in different regions. In addition to that, we
designed fine-grained slots and intents to better capture semantic information.
The benchmark experiments and data statistic analysis show the diversity and
rich annotations of our dataset. We believe the publish of KddRES can be a
necessary supplement of current dialogue datasets and more suitable and
valuable for small and middle enterprises (SMEs) of society, such as build a
customized dialogue system for each restaurant. The corpus and benchmark models
are publicly available.
- Abstract(参考訳): 粗粒度情報を持つCrossWOZ(中国語)やMultiWOZ(英語)のデータセットと比較すると,粒度や階層レベルの情報を適切に扱うデータセットは存在しない。
本稿では,香港で最初のカントナレッジ駆動型REStaurantのための対話データセット(KddRES)を公開し,その情報を特定のレストランへのマルチターン会話の基盤とする。
我々のコーパスには、地域によって異なる10のレストランから派生した0.8kの会話が含まれている。
それに加えて、セマンティック情報をよりよく捉えるために、きめ細かいスロットと意図を設計しました。
ベンチマーク実験とデータ統計分析は、データセットの多様性と豊富なアノテーションを示しています。
我々は、KddRESの発行が、現在の対話データセットの必須サプリメントであり、レストランごとにカスタマイズされた対話システムを構築するなど、社会の中小企業(中小企業)にとってより適切かつ価値のあるものであると信じている。
コーパスとベンチマークモデルは公開されている。
関連論文リスト
- Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文 参考訳(メタデータ) (2020-10-17T08:18:59Z) - KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn
Knowledge-driven Conversation [66.99734491847076]
我々は,中国語の多分野知識駆動会話データセットKdConvを提案する。
私たちのコーパスには3つのドメイン(映画、音楽、旅行)から4.5Kの会話と、平均19.0の回転数で86Kの発話が含まれています。
論文 参考訳(メタデータ) (2020-04-08T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。