論文の概要: CheckDST: Measuring Real-World Generalization of Dialogue State Tracking
Performance
- arxiv url: http://arxiv.org/abs/2112.08321v1
- Date: Wed, 15 Dec 2021 18:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 15:08:08.324931
- Title: CheckDST: Measuring Real-World Generalization of Dialogue State Tracking
Performance
- Title(参考訳): checkdst: 対話状態追跡性能の実世界の一般化の測定
- Authors: Hyundong Cho, Chinnadhurai Sankar, Christopher Lin, Kaushik Ram
Sadagopan, Shahin Shayandeh, Asli Celikyilmaz, Jonathan May, Ahmad Beirami
- Abstract要約: 私たちは、拡張テストセットでよく知られた弱点をテストするために、CheckDSTと呼ばれるメトリクスの集合を設計します。
スパンベースの分類モデルは、名前のないエンティティには耐性があるが、言語の種類には堅牢ではない。
それぞれの弱点のため、どちらのアプローチも実際のデプロイメントには適していない。
- 参考スコア(独自算出の注目度): 18.936466253481363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent neural models that extend the pretrain-then-finetune paradigm continue
to achieve new state-of-the-art results on joint goal accuracy (JGA) for
dialogue state tracking (DST) benchmarks. However, we call into question their
robustness as they show sharp drops in JGA for conversations containing
utterances or dialog flows with realistic perturbations. Inspired by CheckList
(Ribeiro et al., 2020), we design a collection of metrics called CheckDST that
facilitate comparisons of DST models on comprehensive dimensions of robustness
by testing well-known weaknesses with augmented test sets. We evaluate recent
DST models with CheckDST and argue that models should be assessed more
holistically rather than pursuing state-of-the-art on JGA since a higher JGA
does not guarantee better overall robustness. We find that span-based
classification models are resilient to unseen named entities but not robust to
language variety, whereas those based on autoregressive language models
generalize better to language variety but tend to memorize named entities and
often hallucinate. Due to their respective weaknesses, neither approach is yet
suitable for real-world deployment. We believe CheckDST is a useful guide for
future research to develop task-oriented dialogue models that embody the
strengths of various methods.
- Abstract(参考訳): 最近のニューラルモデルは、対話状態追跡(DST)ベンチマークのための関節ゴール精度(JGA)に関する新しい最先端の結果を引き続き達成している。
しかし、現実的な摂動を伴う発話や対話の流れを含む会話に対して、JGAの急激な低下を示すため、彼らの頑健さを疑問視する。
CheckList (Ribeiro et al., 2020)にインスパイアされた我々は、拡張テストセットでよく知られた弱点をテストすることで、堅牢性の包括的な次元におけるDSTモデルの比較を容易にするCheckDSTと呼ばれるメトリクスのコレクションを設計する。
我々は、最近のDSTモデルをCheckDSTで評価し、より高いJGAが全体的な堅牢性を保証しないため、JGAの最先端を追求するよりも、モデルをより公平に評価すべきだと主張している。
自己回帰型言語モデルに基づくモデルは言語多様性に一般化するが、名前付きエンティティを記憶し、しばしば幻覚を与える傾向があるのに対し、スパンベースの分類モデルは名前付きエンティティには弾力性があるが、言語多様性には頑健ではない。
それぞれの弱点のため、どちらのアプローチも実際のデプロイメントには適していない。
CheckDSTは,様々な手法の強みを具現化したタスク指向対話モデルを開発する上で,今後の研究に役立つガイドであると考えている。
関連論文リスト
- Fast and Accurate Factual Inconsistency Detection Over Long Documents [19.86348214462828]
我々は,新しいチャンキング戦略を用いて,現実の不整合を検出するタスク非依存モデルであるSCALEを紹介する。
このアプローチは、様々なタスクや長い入力に対して、現実の不整合検出における最先端のパフォーマンスを実現する。
コードとデータはGitHubに公開しています。
論文 参考訳(メタデータ) (2023-10-19T22:55:39Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Grounding Description-Driven Dialogue State Trackers with
Knowledge-Seeking Turns [54.56871462068126]
人または合成スキーマのパラフレーズによるトレーニングセットの強化は、これらのバリエーションに対するモデルの堅牢性を改善するが、コストがかかるか、制御が難しいかのいずれかである。
本稿では,対話コーパスとスキーマから収集した知識探索ターンの状態追跡モデルに基づいて,これらの問題を回避することを提案する。
論文 参考訳(メタデータ) (2023-09-23T18:33:02Z) - ChatGPT for Zero-shot Dialogue State Tracking: A Solution or an
Opportunity? [2.3555053092246125]
本研究は,ChatGPTがゼロショットDSTにおける最先端性能を達成することを実証した,ChatGPT研究プレビューの予備実験結果を示す。
このようなモデルのコンテキスト内学習能力は、専用および動的対話状態トラッカーの開発を支援する強力なツールになりそうである。
論文 参考訳(メタデータ) (2023-06-02T09:15:01Z) - More Robust Schema-Guided Dialogue State Tracking via Tree-Based
Paraphrase Ranking [0.0]
スキーマ誘導対話状態追跡(DST)構築に優れた微調整言語モデル
本稿では,木に基づくランキングを用いて,多様性と意味的忠実度を協調的に最適化する合成スキーマを生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-17T11:43:08Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - A Multi-Task BERT Model for Schema-Guided Dialogue State Tracking [78.2700757742992]
タスク指向対話システムは対話状態追跡器(DST)を用いて会話を完了させる。
最近の最先端のDST実装は、モデルの堅牢性を改善するために様々なサービスのスキーマに依存している。
本稿では,意図予測,要求スロット予測,スロットフィリングの3つのDSTタスクを協調的に解決する単一マルチタスクBERTモデルを提案する。
論文 参考訳(メタデータ) (2022-07-02T13:27:59Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Annotation Inconsistency and Entity Bias in MultiWOZ [40.127114829948965]
MultiWOZは、最も人気のあるマルチドメインタスク指向のダイアログデータセットの1つである。
ダイアログ状態追跡(DST)、自然言語生成(NLG)、エンドツーエンドダイアログモデリング(E2E)など、様々なダイアログタスクのベンチマークとして広く受け入れられている。
論文 参考訳(メタデータ) (2021-05-29T00:09:06Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - A Fast and Robust BERT-based Dialogue State Tracker for Schema-Guided
Dialogue Dataset [8.990035371365408]
本稿では,目標指向対話システムにおける状態追跡のための高速かつ堅牢なBERTベースモデルであるFastSGTを紹介する。
提案モデルは自然言語記述を含むGuided Dialogueデータセットのために設計されている。
本モデルでは,精度を著しく向上しつつ,計算およびメモリ消費の面で効率を保っている。
論文 参考訳(メタデータ) (2020-08-27T18:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。