論文の概要: Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog
- arxiv url: http://arxiv.org/abs/2205.10400v1
- Date: Fri, 20 May 2022 18:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 16:26:16.123124
- Title: Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog
- Title(参考訳): Multi2WOZ:タスク指向対話のためのロバストな多言語データセットと会話事前学習
- Authors: Chia-Chien Hung, Anne Lauscher, Ivan Vuli\'c, Simone Paolo Ponzetto,
Goran Glava\v{s}
- Abstract要約: Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 67.20796950016735
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Research on (multi-domain) task-oriented dialog (TOD) has predominantly
focused on the English language, primarily due to the shortage of robust TOD
datasets in other languages, preventing the systematic investigation of
cross-lingual transfer for this crucial NLP application area. In this work, we
introduce Multi2WOZ, a new multilingual multi-domain TOD dataset, derived from
the well-established English dataset MultiWOZ, that spans four typologically
diverse languages: Chinese, German, Arabic, and Russian. In contrast to
concurrent efforts, Multi2WOZ contains gold-standard dialogs in target
languages that are directly comparable with development and test portions of
the English dataset, enabling reliable and comparative estimates of
cross-lingual transfer performance for TOD. We then introduce a new framework
for multilingual conversational specialization of pretrained language models
(PrLMs) that aims to facilitate cross-lingual transfer for arbitrary downstream
TOD tasks. Using such conversational PrLMs specialized for concrete target
languages, we systematically benchmark a number of zero-shot and few-shot
cross-lingual transfer approaches on two standard TOD tasks: Dialog State
Tracking and Response Retrieval. Our experiments show that, in most setups, the
best performance entails the combination of (I) conversational specialization
in the target language and (ii) few-shot transfer for the concrete TOD task.
Most importantly, we show that our conversational specialization in the target
language allows for an exceptionally sample-efficient few-shot transfer for
downstream TOD tasks.
- Abstract(参考訳): マルチドメイン)タスク指向ダイアログ(tod)の研究は、主に英語に焦点を当てており、主に他の言語での堅牢なtodデータセットが不足しており、この重要なnlpアプリケーション領域における言語間転送の体系的な調査を妨げている。
本研究では,中国語,ドイツ語,アラビア語,ロシア語の4つのタイプにまたがる英語データセットであるmultiwozから派生した,新しい多言語多言語todデータセットであるmulti2wozについて紹介する。
並行的な取り組みとは対照的に、Multi2WOZは、英語データセットの開発とテスト部分と直接比較可能なターゲット言語におけるゴールド標準ダイアログを含み、TODの言語間転送性能の信頼性と比較評価を可能にする。
次に,任意のダウンストリームtodタスクの言語間転送を容易にするために,プリトレーニング言語モデル(prlms)の多言語会話特化のための新しいフレームワークを提案する。
具体的な対象言語に特化した対話型prlmを用いて,対話状態追跡と応答検索という2つの標準todタスクに対して,ゼロショットおよび少数ショットの言語間転送アプローチを体系的にベンチマークする。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
最も重要なことは、ターゲット言語における会話の特殊化によって、下流のTODタスクに対して、例外的にサンプル効率の良い数ショット転送が可能であることである。
関連論文リスト
- Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。