論文の概要: Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation
- arxiv url: http://arxiv.org/abs/2201.13405v1
- Date: Mon, 31 Jan 2022 18:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 16:54:49.143235
- Title: Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation
- Title(参考訳): アウトラインベース生成による言語間対話データセット作成
- Authors: Olga Majewska, Evgeniia Razumovskaia, Edoardo Maria Ponti, Ivan
Vuli\'c, Anna Korhonen
- Abstract要約: 言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
- 参考スコア(独自算出の注目度): 70.81596088969378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual task-oriented dialogue (ToD) facilitates access to services and
information for many (communities of) speakers. Nevertheless, the potential of
this technology is not fully realised, as current datasets for multilingual ToD
- both for modular and end-to-end modelling - suffer from severe limitations.
1) When created from scratch, they are usually small in scale and fail to cover
many possible dialogue flows. 2) Translation-based ToD datasets might lack
naturalness and cultural specificity in the target language. In this work, to
tackle these limitations we propose a novel outline-based annotation process
for multilingual ToD datasets, where domain-specific abstract schemata of
dialogue are mapped into natural language outlines. These in turn guide the
target language annotators in writing a dialogue by providing instructions
about each turn's intents and slots. Through this process we annotate a new
large-scale dataset for training and evaluation of multilingual and
cross-lingual ToD systems. Our Cross-lingual Outline-based Dialogue dataset
(termed COD) enables natural language understanding, dialogue state tracking,
and end-to-end dialogue modelling and evaluation in 4 diverse languages:
Arabic, Indonesian, Russian, and Kiswahili. Qualitative and quantitative
analyses of COD versus an equivalent translation-based dataset demonstrate
improvements in data quality, unlocked by the outline-based approach. Finally,
we benchmark a series of state-of-the-art systems for cross-lingual ToD,
setting reference scores for future work and demonstrating that COD prevents
over-inflated performance, typically met with prior translation-based ToD
datasets.
- Abstract(参考訳): 多言語タスク指向対話(tod)は、多くの(コミュニティの)話者のサービスや情報へのアクセスを促進する。
しかしながら、モジュール化とエンドツーエンドモデリングの両方において、現在の多言語ToDのデータセットは厳しい制限に悩まされているため、この技術の可能性は完全には実現されていない。
1)スクラッチから生成された場合、通常は小規模で、多くの可能な対話フローをカバーできない。
2)翻訳に基づくToDデータセットは,対象言語における自然性や文化的特異性を欠く可能性がある。
本研究では,これらの制約に対処するために,対話のドメイン固有の抽象スキーマを自然言語のアウトラインにマッピングする,多言語ToDデータセットのための新しいアウトラインベースアノテーションプロセスを提案する。
これらは、各ターンの意図とスロットに関する指示を提供することで、対話を書く際にターゲット言語アノテータを誘導する。
このプロセスを通じて,多言語および言語間todシステムのトレーニングと評価のための,新たな大規模データセットをアノテートする。
対話データセットは,アラビア語,インドネシア語,ロシア語,キスワヒリ語という4つの多様な言語で,自然言語理解,対話状態追跡,エンドツーエンド対話モデリング,評価を可能にする。
CODと等価な翻訳ベースデータセットの質的および定量的分析は、アウトラインベースアプローチによってアンロックされたデータ品質の改善を示す。
最後に,言語間ToDのための一連の最先端システムをベンチマークし,今後の作業の基準スコアを設定し,CODが従来の翻訳ベースのToDデータセットと一般的に一致する過膨張性能を阻害することを示す。
関連論文リスト
- LaDA: Latent Dialogue Action For Zero-shot Cross-lingual Neural Network
Language Modeling [20.002861239367704]
言語間適応は限られた資源を持つ音声言語理解システムにおいて有効であることが証明されている。
既存の方法はしばしばインテント検出やスロットフィリングに不満足である。
復号化戦略を最適化するために、潜在対話アクション層が提案されている。
論文 参考訳(メタデータ) (2023-08-05T15:51:45Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue
Modeling [52.99188200886738]
BiToDは、エンドツーエンドのタスク指向対話モデリングのための最初のバイリンガルなマルチドメインデータセットである。
BiToDには、大規模で現実的なバイリンガル知識ベースを持つ7k以上のマルチドメイン対話(144k発声)が含まれている。
論文 参考訳(メタデータ) (2021-06-05T03:38:42Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z) - An Empirical Study of Cross-Lingual Transferability in Generative
Dialogue State Tracker [33.2309643963072]
多言語事前学習セq2seqモデルを用いた言語間対話状態追跡システムの転送可能性について検討した。
また、我々のアプローチの低言語間移動可能性も調べ、調査と議論を行う。
論文 参考訳(メタデータ) (2021-01-27T12:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。