論文の概要: MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue
- arxiv url: http://arxiv.org/abs/2212.10455v2
- Date: Mon, 19 Jun 2023 04:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 04:42:16.957045
- Title: MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue
- Title(参考訳): multi3nlu++:タスク指向対話における自然言語理解のための多言語マルチインテントマルチドメインデータセット
- Authors: Nikita Moghe, Evgeniia Razumovskaia, Liane Guillou, Ivan Vuli\'c, Anna
Korhonen, Alexandra Birch
- Abstract要約: 英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 115.32009638844059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented dialogue (TOD) systems have been widely deployed in many
industries as they deliver more efficient customer support. These systems are
typically constructed for a single domain or language and do not generalise
well beyond this. To support work on Natural Language Understanding (NLU) in
TOD across multiple languages and domains simultaneously, we constructed
MULTI3NLU++, a multilingual, multi-intent, multi-domain dataset. MULTI3NLU++
extends the English only NLU++ dataset to include manual translations into a
range of high, medium, and low resource languages (Spanish, Marathi, Turkish
and Amharic), in two domains (BANKING and HOTELS). Because of its multi-intent
property, MULTI3NLU++ represents complex and natural user goals, and therefore
allows us to measure the realistic performance of TOD systems in a varied set
of the world's languages. We use MULTI3NLU++ to benchmark state-of-the-art
multilingual models for the NLU tasks of intent detection and slot labelling
for TOD systems in the multilingual setting. The results demonstrate the
challenging nature of the dataset, particularly in the low-resource language
setting, offering ample room for future experimentation in multi-domain
multilingual TOD setups.
- Abstract(参考訳): タスク指向対話(TOD)システムは、より効率的な顧客サポートを提供するため、多くの業界に広く展開されている。
これらのシステムは典型的には単一のドメインや言語のために構築され、それ以上の一般化はしない。
複数の言語とドメインをまたいだtodにおける自然言語理解(nlu)作業を支援するため、マルチ言語、マルチインテント、マルチドメインデータセットであるmulti3nlu++を構築した。
Multi3NLU++は、英語のみのNLU++データセットを拡張して、2つのドメイン(BANKINGとHOTELS)で、高、中、低リソース言語(スペイン語、マラティア、トルコ、アムハラ語)に手動で翻訳する。
多言語性のため、Multi3NLU++は複雑で自然なユーザ目標を表すため、世界の様々な言語でTODシステムの現実的な性能を測定することができる。
我々はMulti3NLU++を用いて、多言語設定におけるTODシステムの意図検出とスロットラベリングのNLUタスクの最先端多言語モデルのベンチマークを行う。
結果は、データセット、特に低リソース言語環境での挑戦的な性質を示し、マルチドメイン多言語todセットアップにおける将来の実験のための十分な余地を提供する。
関連論文リスト
- Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Large Scale Multi-Lingual Multi-Modal Summarization Dataset [26.92121230628835]
現在最大の多言語マルチモーダル要約データセット(M3LS)を提示する。
それは100万以上のドキュメントイメージペアのインスタンスと、それぞれに専門的な注釈付きマルチモーダル要約で構成されています。
また、13言語に対する最大の要約データセットであり、2言語に対する言語間要約データで構成されている。
論文 参考訳(メタデータ) (2023-02-13T18:00:23Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue
Modeling [52.99188200886738]
BiToDは、エンドツーエンドのタスク指向対話モデリングのための最初のバイリンガルなマルチドメインデータセットである。
BiToDには、大規模で現実的なバイリンガル知識ベースを持つ7k以上のマルチドメイン対話(144k発声)が含まれている。
論文 参考訳(メタデータ) (2021-06-05T03:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。