論文の概要: Oh My Mistake!: Toward Realistic Dialogue State Tracking including
Turnback Utterances
- arxiv url: http://arxiv.org/abs/2108.12637v1
- Date: Sat, 28 Aug 2021 12:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 08:00:04.512349
- Title: Oh My Mistake!: Toward Realistic Dialogue State Tracking including
Turnback Utterances
- Title(参考訳): あら 間違いです!
ターンバック発話を含むリアル対話状態追跡に向けて
- Authors: Takyoung Kim, Yukyung Lee, Hoonsang Yoon, Pilsung Kang, Misuk Kim
- Abstract要約: 我々は、現在のベンチマークデータセットが、意識を変えるカジュアルな会話を扱うのに十分な多様性があるかどうかを調査する。
テンプレートベースのターンバック発話はDSTモデルの性能を著しく低下させることがわかった。
また、トレーニングデータセットにターンバックが適切に含まれると、パフォーマンスがリバウンドすることも観察した。
- 参考スコア(独自算出の注目度): 1.6099403809839035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary purpose of dialogue state tracking (DST), a critical component of
an end-to-end conversational system, is to build a model that responds well to
real-world situations. Although we often change our minds during ordinary
conversations, current benchmark datasets do not adequately reflect such
occurrences and instead consist of over-simplified conversations, in which no
one changes their mind during a conversation. As the main question inspiring
the present study,``Are current benchmark datasets sufficiently diverse to
handle casual conversations in which one changes their mind?'' We found that
the answer is ``No'' because simply injecting template-based turnback
utterances significantly degrades the DST model performance. The test joint
goal accuracy on the MultiWOZ decreased by over 5\%p when the simplest form of
turnback utterance was injected. Moreover, the performance degeneration worsens
when facing more complicated turnback situations. However, we also observed
that the performance rebounds when a turnback is appropriately included in the
training dataset, implying that the problem is not with the DST models but
rather with the construction of the benchmark dataset.
- Abstract(参考訳): エンド・ツー・エンドの会話システムの重要な構成要素である対話状態追跡(dst)の目的は、実世界の状況によく反応するモデルを構築することである。
通常の会話では心を変えることが多いが、現在のベンチマークデータセットはそのような出来事を適切に反映せず、代わりに過剰に単純化された会話で構成されている。
この研究を刺激する主要な質問として、‘現在のベンチマークデータセットは、頭が変わるカジュアルな会話を扱うのに十分な多様性を持っているか?
テンプレートベースのターンバック発話を単に注入するだけでDSTモデルの性能が大幅に低下するため、その答えは ``No'' であることがわかった。
マルチウォズにおける試験目標精度は, 最も単純なターンバック発話を注入した場合, 5\%p以上低下した。
さらに、複雑なターンバックの状況に直面すると、パフォーマンスの劣化が悪化する。
しかし、学習データセットに返り値が適切に含まれている場合、パフォーマンスがリバウンドするのも観察し、問題はdstモデルではなく、ベンチマークデータセットの構築にあることを示唆した。
関連論文リスト
- Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - TANet: Thread-Aware Pretraining for Abstractive Conversational
Summarization [27.185068253347257]
我々はRedditコミュニティの複数人による議論に基づいて,RCSと呼ばれる大規模(11M)事前学習データセットを構築した。
次に、スレッド対応のTransformerベースのネットワークであるTANetを紹介する。
会話を文の列として扱う既存の事前学習モデルとは異なり、本質的な文脈依存は会話全体を理解する上で重要な役割を担っていると論じる。
論文 参考訳(メタデータ) (2022-04-09T16:08:46Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z) - Improving Longer-range Dialogue State Tracking [22.606650177804966]
対話状態追跡(DST)はタスク指向対話システムにおいて重要な要素である。
本稿では,より長い対話処理を特に重視したDSTの全体的な性能向上を目指す。
論文 参考訳(メタデータ) (2021-02-27T02:44:28Z) - CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers [92.5628632009802]
本稿では,このギャップを橋渡しし,新たなシナリオにおける対話状態追跡(DST)モデルを評価するための制御可能な対策(CoCo)を提案する。
CoCoは、2つのステップで新しい会話シナリオを生成する: (i) スロットをドロップして追加し、スロット値を置き換えて、 (ii) (i) で条件付きで対話フローと整合する対実会話生成。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしくなっている。
論文 参考訳(メタデータ) (2020-10-24T09:39:35Z) - Dual Learning for Dialogue State Tracking [44.679185483585364]
対話状態追跡(DST)とは、各ターンの対話状態を推定することである。
複雑な対話履歴のコンテキストに依存するため、DSTデータアノテーションは単文言語理解よりも高価である。
ラベルのないデータを完全に活用するための新しい二元学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。