論文の概要: Annotation Inconsistency and Entity Bias in MultiWOZ
- arxiv url: http://arxiv.org/abs/2105.14150v1
- Date: Sat, 29 May 2021 00:09:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:24:47.335163
- Title: Annotation Inconsistency and Entity Bias in MultiWOZ
- Title(参考訳): MultiWOZにおけるアノテーションの不整合とエンティティバイアス
- Authors: Kun Qian, Ahmad Beirami, Zhouhan Lin, Ankita De, Alborz Geramifard,
Zhou Yu, Chinnadhurai Sankar
- Abstract要約: MultiWOZは、最も人気のあるマルチドメインタスク指向のダイアログデータセットの1つである。
ダイアログ状態追跡(DST)、自然言語生成(NLG)、エンドツーエンドダイアログモデリング(E2E)など、様々なダイアログタスクのベンチマークとして広く受け入れられている。
- 参考スコア(独自算出の注目度): 40.127114829948965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MultiWOZ is one of the most popular multi-domain task-oriented dialog
datasets, containing 10K+ annotated dialogs covering eight domains. It has been
widely accepted as a benchmark for various dialog tasks, e.g., dialog state
tracking (DST), natural language generation (NLG), and end-to-end (E2E) dialog
modeling. In this work, we identify an overlooked issue with dialog state
annotation inconsistencies in the dataset, where a slot type is tagged
inconsistently across similar dialogs leading to confusion for DST modeling. We
propose an automated correction for this issue, which is present in a whopping
70% of the dialogs. Additionally, we notice that there is significant entity
bias in the dataset (e.g., "cambridge" appears in 50% of the destination cities
in the train domain). The entity bias can potentially lead to named entity
memorization in generative models, which may go unnoticed as the test set
suffers from a similar entity bias as well. We release a new test set with all
entities replaced with unseen entities. Finally, we benchmark joint goal
accuracy (JGA) of the state-of-the-art DST baselines on these modified versions
of the data. Our experiments show that the annotation inconsistency corrections
lead to 7-10% improvement in JGA. On the other hand, we observe a 29% drop in
JGA when models are evaluated on the new test set with unseen entities.
- Abstract(参考訳): MultiWOZは8つのドメインをカバーする10K以上の注釈付きダイアログを含む、最も人気のあるマルチドメインタスク指向のダイアログデータセットの1つである。
対話状態追跡(dst)、自然言語生成(nlg)、エンドツーエンド(e2e)ダイアログモデリングなど、さまざまなダイアログタスクのベンチマークとして広く受け入れられている。
本研究では,データセット内のダイアログ状態アノテーションの不整合で見落とされ,スロットタイプが類似のダイアログ間で不整合にタグ付けされ,DSTモデリングの混乱につながる問題を特定する。
本稿では,70パーセントのダイアログに存在しているこの問題を自動修正する手法を提案する。
さらに、データセットに重大なエンティティバイアスがあることに気付きます(例えば、列車ドメインの目的地都市の50%に"cambridge"が表示されます)。
エンティティのバイアスは、生成モデルにおける名前付きエンティティの記憶につながる可能性があり、テストセットが同じようなエンティティのバイアスに悩まされるため、気づかないかもしれない。
すべてのエンティティが見えないエンティティに置き換えられた新しいテストセットをリリースします。
最後に,これらの修正版データに対して,最先端dstベースラインのジョイント目標精度(jga)をベンチマークした。
実験の結果,アノテーションの不整合補正により,jgaは7~10%改善した。
一方,未認識のエンティティを持つ新しいテストセットでモデルを評価すると,jgaが29%減少するのを観察した。
関連論文リスト
- SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - CheckDST: Measuring Real-World Generalization of Dialogue State Tracking
Performance [18.936466253481363]
私たちは、拡張テストセットでよく知られた弱点をテストするために、CheckDSTと呼ばれるメトリクスの集合を設計します。
スパンベースの分類モデルは、名前のないエンティティには耐性があるが、言語の種類には堅牢ではない。
それぞれの弱点のため、どちらのアプローチも実際のデプロイメントには適していない。
論文 参考訳(メタデータ) (2021-12-15T18:10:54Z) - Contextual Semantic Parsing for Multilingual Task-Oriented Dialogues [7.8378818005171125]
1つの言語で大規模な対話データセットをセットすると、機械翻訳を用いて他の言語に対して効果的な意味を自動生成できる。
本稿では、スロット値の忠実な翻訳を保証するために、アライメント付き対話データセットの自動翻訳を提案する。
簡潔な表現が翻訳誤りの複合効果を減少させることを示す。
論文 参考訳(メタデータ) (2021-11-04T01:08:14Z) - Zero-Shot Dialogue Disentanglement by Self-Supervised Entangled Response
Selection [79.37200787463917]
対話の切り離しは、スレッドへの長大かつ多人数の対話において、発話をグループ化することを目的としている。
これは談話分析や対話応答選択などの下流アプリケーションに有用である。
我々はまず,atextbfzero-shotダイアログ・ディアンタングメント・ソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-25T05:15:01Z) - Zero-shot Generalization in Dialog State Tracking through Generative
Question Answering [10.81203437307028]
本稿では,タスク指向ダイアログの制約やスロットに対する自然言語クエリをサポートする新しいフレームワークを提案する。
本手法は,英語文に事前学習した条件付きドメインモデルを用いた生成的質問応答に基づく。
論文 参考訳(メタデータ) (2021-01-20T21:47:20Z) - Improving Limited Labeled Dialogue State Tracking with Self-Supervision [91.68515201803986]
既存の対話状態追跡(DST)モデルには多くのラベル付きデータが必要である。
本稿では,潜在的一貫性の維持と対話行動のモデル化という,自己指導型の2つの目的について検討する。
提案する自己教師型信号は,1%のラベル付きデータのみを使用する場合,関節ゴール精度を8.95%向上させることができる。
論文 参考訳(メタデータ) (2020-10-26T21:57:42Z) - MultiWOZ 2.2 : A Dialogue Dataset with Additional Annotation Corrections
and State Tracking Baselines [15.540213987132839]
この作業では、MultiWOZ 2.2が導入された。
まず,MultiWOZ 2.1上での発話の17.3%にわたって,対話状態のアノテーションエラーを特定し,修正する。
第二に、多くの可能な値でスロットの語彙を再定義する。
論文 参考訳(メタデータ) (2020-07-10T22:52:14Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。