論文の概要: MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue
- arxiv url: http://arxiv.org/abs/2212.10455v1
- Date: Tue, 20 Dec 2022 17:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:47:59.966328
- Title: MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue
- Title(参考訳): multi3nlu++:タスク指向対話における自然言語理解のための多言語マルチインテントマルチドメインデータセット
- Authors: Nikita Moghe, Evgeniia Razumovskaia, Liane Guillou, Ivan Vuli\'c, Anna
Korhonen, Alexandra Birch
- Abstract要約: Multi3NLU++は多言語、多言語、マルチドメインのデータセットである。
最先端の多言語言語モデルと機械翻訳および質問回答システムのベンチマークに使用される。
結果は、特に低リソースの言語設定において、データセットの難易度を示す。
- 参考スコア(独自算出の注目度): 115.32009638844059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented dialogue (TOD) systems have been applied in a range of domains
to support human users to achieve specific goals. Systems are typically
constructed for a single domain or language and do not generalise well beyond
this. Their extension to other languages in particular is restricted by the
lack of available training data for many of the world's languages. To support
work on Natural Language Understanding (NLU) in TOD across multiple languages
and domains simultaneously, we constructed MULTI3NLU++, a multilingual,
multi-intent, multi-domain dataset. MULTI3NLU++ extends the English-only NLU++
dataset to include manual translations into a range of high, medium and low
resource languages (Spanish, Marathi, Turkish and Amharic), in two domains
(banking and hotels). MULTI3NLU++ inherits the multi-intent property of NLU++,
where an utterance may be labelled with multiple intents, providing a more
realistic representation of a user's goals and aligning with the more complex
tasks that commercial systems aim to model. We use MULTI3NLU++ to benchmark
state-of-the-art multilingual language models as well as Machine Translation
and Question Answering systems for the NLU task of intent detection for TOD
systems in the multilingual setting. The results demonstrate the challenging
nature of the dataset, particularly in the low-resource language setting.
- Abstract(参考訳): タスク指向対話(TOD)システムは、特定の目標を達成するために、人間のユーザを支援するために様々な領域に応用されている。
システムは通常、単一のドメインや言語のために構築され、それ以上の一般化はしない。
特に他の言語への拡張は、世界中の多くの言語で利用可能なトレーニングデータの不足によって制限されている。
複数の言語とドメインをまたいだtodにおける自然言語理解(nlu)作業を支援するため、マルチ言語、マルチインテント、マルチドメインデータセットであるmulti3nlu++を構築した。
Multi3NLU++は、英語のみのNLU++データセットを拡張して、2つのドメイン(銀行とホテル)で、高、中、低リソース言語(スペイン語、マラティー語、トルコ語、アムハラ語)に手動で翻訳する。
Multi3NLU++は、NLU++のマルチインテントプロパティを継承する。複数のインテントで発話をラベル付けし、ユーザの目標をよりリアルに表現し、商用システムがモデル化するより複雑なタスクと整合させる。
我々はmulti3nlu++を用いて,多言語環境におけるtodシステムのインテント検出タスクのための機械翻訳と質問応答システムのベンチマークを行った。
結果は、特に低リソース言語設定において、データセットの困難な性質を示している。
関連論文リスト
- Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Large Scale Multi-Lingual Multi-Modal Summarization Dataset [26.92121230628835]
現在最大の多言語マルチモーダル要約データセット(M3LS)を提示する。
それは100万以上のドキュメントイメージペアのインスタンスと、それぞれに専門的な注釈付きマルチモーダル要約で構成されています。
また、13言語に対する最大の要約データセットであり、2言語に対する言語間要約データで構成されている。
論文 参考訳(メタデータ) (2023-02-13T18:00:23Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue
Modeling [52.99188200886738]
BiToDは、エンドツーエンドのタスク指向対話モデリングのための最初のバイリンガルなマルチドメインデータセットである。
BiToDには、大規模で現実的なバイリンガル知識ベースを持つ7k以上のマルチドメイン対話(144k発声)が含まれている。
論文 参考訳(メタデータ) (2021-06-05T03:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。