論文の概要: GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems
- arxiv url: http://arxiv.org/abs/2110.07679v1
- Date: Thu, 14 Oct 2021 19:33:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 12:12:52.947924
- Title: GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems
- Title(参考訳): globalwoz:マルチウォズをグローバル化する多言語タスク指向対話システム
- Authors: Bosheng Ding, Junjie Hu, Lidong Bing, Sharifah Mahani Aljunied, Shafiq
Joty, Luo Si, Chunyan Miao
- Abstract要約: 本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
- 参考スコア(独自算出の注目度): 66.92182084456809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much recent progress in task-oriented dialogue (ToD) systems has been driven
by available annotation data across multiple domains for training. Over the
last few years, there has been a move towards data curation for multilingual
ToD systems that are applicable to serve people speaking different languages.
However, existing multilingual ToD datasets either have a limited coverage of
languages due to the high cost of data curation, or ignore the fact that
dialogue entities barely exist in countries speaking these languages. To tackle
these limitations, we introduce a novel data curation method that generates
GlobalWoZ -- a large-scale multilingual ToD dataset globalized from an English
ToD dataset for three unexplored use cases. Our method is based on translating
dialogue templates and filling them with local entities in the target-language
countries. We release our dataset as well as a set of strong baselines to
encourage research on learning multilingual ToD systems for real use cases.
- Abstract(参考訳): タスク指向対話(ToD)システムの最近の進歩は、トレーニングのために複数のドメインにまたがるアノテーションデータによって進められている。
ここ数年,多言語対応のToDシステムに対するデータキュレーションへの動きが,さまざまな言語を話す人々への提供に応用されている。
しかしながら、既存の多言語todデータセットは、データキュレーションのコストが高いため、言語の範囲が限られているか、あるいはこれらの言語を話す国では対話エンティティがほとんど存在しないという事実を無視している。
これらの制約に対処するために,我々は,英語todデータセットからグローバル化された大規模多言語todデータセットであるglobalwozを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
関連論文リスト
- Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue
Modeling [52.99188200886738]
BiToDは、エンドツーエンドのタスク指向対話モデリングのための最初のバイリンガルなマルチドメインデータセットである。
BiToDには、大規模で現実的なバイリンガル知識ベースを持つ7k以上のマルチドメイン対話(144k発声)が含まれている。
論文 参考訳(メタデータ) (2021-06-05T03:38:42Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。