論文の概要: PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented
Dialogs
- arxiv url: http://arxiv.org/abs/2303.08954v2
- Date: Fri, 17 Mar 2023 02:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 11:04:52.832027
- Title: PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented
Dialogs
- Title(参考訳): PRESTO: 現実的なタスク指向の対話を解析するための多言語データセット
- Authors: Rahul Goel, Waleed Ammar, Aditya Gupta, Siddharth Vashishtha, Motoki
Sano, Faiz Surani, Max Chang, HyunJeong Choe, David Greene, Kyle He, Rattima
Nitisaroj, Anna Trukhina, Shachi Paul, Pararth Shah, Rushin Shah and Zhou Yu
- Abstract要約: PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。
現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。
我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
- 参考スコア(独自算出の注目度): 39.58414649004708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research interest in task-oriented dialogs has increased as systems such as
Google Assistant, Alexa and Siri have become ubiquitous in everyday life.
However, the impact of academic research in this area has been limited by the
lack of datasets that realistically capture the wide array of user pain points.
To enable research on some of the more challenging aspects of parsing realistic
conversations, we introduce PRESTO, a public dataset of over 550K contextual
multilingual conversations between humans and virtual assistants. PRESTO
contains a diverse array of challenges that occur in real-world NLU tasks such
as disfluencies, code-switching, and revisions. It is the only large scale
human generated conversational parsing dataset that provides structured context
such as a user's contacts and lists for each example. Our mT5 model based
baselines demonstrate that the conversational phenomenon present in PRESTO are
challenging to model, which is further pronounced in a low-resource setup.
- Abstract(参考訳): タスク指向ダイアログに対する研究の関心は、Google Assistant、Alexa、Siriといったシステムが日常的に普及するにつれて高まっている。
しかし、この領域における学術研究の影響は、幅広いユーザー痛点を現実的に捉えるデータセットの欠如によって制限されてきた。
リアルな会話を解析するより困難な側面について研究するために,人間と仮想アシスタントの550k以上の文脈的多言語会話の公開データセットであるprestoを紹介する。
prestoには、ディフルエンシー、コードスイッチ、リビジョンなど、現実世界のnluタスクで発生するさまざまな課題が含まれている。
これは、ユーザの連絡先やリストなどの構造化されたコンテキストを提供する、大規模な人間生成の会話解析データセットである。
我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象がモデル化が困難であることを示し、低リソースのセットアップでさらに顕著である。
関連論文リスト
- LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues [38.6183579217801]
バーチャルアシスタントは、対話機能に関して飛躍的に前進する可能性がある。
しかし、真にトランスフォーメーションされたタスク指向の対話機能を実現するための大きなボトルネックは、高品質なデータの不足である。
LUCIDを使用して、100の意図にまたがる4,277の会話のシードデータセットを生成し、その能力を実証しています。
論文 参考訳(メタデータ) (2024-03-01T11:33:53Z) - Learning From Free-Text Human Feedback -- Collect New Datasets Or Extend
Existing Ones? [57.16050211534735]
一般的な対話データセットにおける自由文フィードバックのタイプと頻度について検討する。
この結果から, エラータイプ, ユーザ応答タイプ, それらの関係性など, 調査したデータセットの構成に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-10-24T12:01:11Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Navigating Connected Memories with a Task-oriented Dialog System [13.117491508194242]
マルチターンで対話的な対話を通じて,ユーザがメディアコレクションを検索できるようにする強力なツールとして,コネクテッドメモリのためのダイアログを提案する。
新しいタスク指向のダイアログデータセットCOMETを使用し、シミュレーションされたパーソナルメモリグラフをベースとしたユーザ>アシスタントダイアログ(トータリング103k$発話)を含む。
COMETを分析し、意味のある進捗をベンチマークするために4つの主要なタスクを定式化し、最先端の言語モデルを強力なベースラインとして採用する。
論文 参考訳(メタデータ) (2022-11-15T19:31:57Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!? [4.022057598291766]
我々は,MultiWOZ,SGD,SMCalFlowの対話効果と文脈効果の分類を概説する。
我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話型であるのに対して、SMCalFlowは現在のリリースでは会話型ではないことを発見した。
論文 参考訳(メタデータ) (2022-03-07T14:26:23Z) - Database Search Results Disambiguation for Task-Oriented Dialog Systems [37.36255492341847]
本稿では,データベース検索結果の曖昧化に着目した新しい課題であるデータベース検索結果(DSR)の曖昧化を提案する。
この課題を研究するために、一般的なタスク指向のダイアログデータセット(MultiWOZとSGD)を拡張し、(a)事前に定義された文法を合成的に生成し、(b)サブセットのための人間のパラフレーズを収集する。
拡張ダイアログデータのトレーニングは、修正されていないターンのパフォーマンスを犠牲にすることなく、曖昧なシナリオに対処するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2021-12-15T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。