論文の概要: CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers
- arxiv url: http://arxiv.org/abs/2010.12850v3
- Date: Fri, 26 Mar 2021 06:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:00:41.899588
- Title: CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers
- Title(参考訳): CoCo:対話状態トラッカー評価のための制御可能な対策
- Authors: Shiyang Li, Semih Yavuz, Kazuma Hashimoto, Jia Li, Tong Niu, Nazneen
Rajani, Xifeng Yan, Yingbo Zhou and Caiming Xiong
- Abstract要約: 本稿では,このギャップを橋渡しし,新たなシナリオにおける対話状態追跡(DST)モデルを評価するための制御可能な対策(CoCo)を提案する。
CoCoは、2つのステップで新しい会話シナリオを生成する: (i) スロットをドロップして追加し、スロット値を置き換えて、 (ii) (i) で条件付きで対話フローと整合する対実会話生成。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしくなっている。
- 参考スコア(独自算出の注目度): 92.5628632009802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue state trackers have made significant progress on benchmark datasets,
but their generalization capability to novel and realistic scenarios beyond the
held-out conversations is less understood. We propose controllable
counterfactuals (CoCo) to bridge this gap and evaluate dialogue state tracking
(DST) models on novel scenarios, i.e., would the system successfully tackle the
request if the user responded differently but still consistently with the
dialogue flow? CoCo leverages turn-level belief states as counterfactual
conditionals to produce novel conversation scenarios in two steps: (i)
counterfactual goal generation at turn-level by dropping and adding slots
followed by replacing slot values, (ii) counterfactual conversation generation
that is conditioned on (i) and consistent with the dialogue flow. Evaluating
state-of-the-art DST models on MultiWOZ dataset with CoCo-generated
counterfactuals results in a significant performance drop of up to 30.8% (from
49.4% to 18.6%) in absolute joint goal accuracy. In comparison, widely used
techniques like paraphrasing only affect the accuracy by at most 2%. Human
evaluations show that COCO-generated conversations perfectly reflect the
underlying user goal with more than 95% accuracy and are as human-like as the
original conversations, further strengthening its reliability and promise to be
adopted as part of the robustness evaluation of DST models.
- Abstract(参考訳): 対話状態トラッカはベンチマークデータセットで大きな進歩を遂げているが、保持された会話以外の新しい現実的なシナリオへの一般化能力は理解されていない。
我々は,このギャップを埋める制御可能な対策(CoCo)を提案し,対話状態追跡(DST)モデルを新規シナリオ上で評価する。
CoCoは、ターンレベルの信念状態を反事実条件として活用し、2つのステップで新しい会話シナリオを生成する。
(i)スロットをドロップして追加し、スロット値を置き換えることでターンレベルの対実ゴール生成。
(ii)条件付の反事実的会話生成
(i)対話の流れと一致している。
マルチWOZデータセット上の最先端のDSTモデルとCoCo生成の偽造品の評価は、絶対ゴール精度で30.8%(49.4%から18.6%)の大幅なパフォーマンス低下をもたらす。
比較して、パラフレージングのような広く使われている技術は、精度に少なくとも2%しか影響しない。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしく、さらに信頼性を高め、DSTモデルの堅牢性評価の一部として採用することを約束している。
関連論文リスト
- Chain of Thought Explanation for Dialogue State Tracking [52.015771676340016]
対話状態追跡(DST)は、会話中のユーザクエリと目標を記録することを目的としている。
DSTタスクに対してChain-of-Thought-Explanation(CoTE)というモデルを提案する。
CoTEはスロット値を決定した後、ステップバイステップで詳細な説明を作成するように設計されている。
論文 参考訳(メタデータ) (2024-03-07T16:59:55Z) - Mismatch between Multi-turn Dialogue and its Evaluation Metric in
Dialogue State Tracking [15.54992415806844]
対話状態追跡(DST)は,多方向対話の状況から重要な情報を抽出することを目的としている。
既存のメトリクスを補うために,textbfrelative slotの精度を提案する。
この研究は、共同目標精度の報告だけでなく、DSTタスクにおける様々な補完的指標も奨励する。
論文 参考訳(メタデータ) (2022-03-07T04:07:36Z) - Dialogue State Tracking with Multi-Level Fusion of Predicted Dialogue
States and Conversations [2.6529642559155944]
予測対話状態と会話ネットワークの多レベル融合による対話状態追跡を提案する。
本モデルでは,各発話,対応する最終対話状態,対話スロット間の相互作用をモデル化することにより,各対話ターンに関する情報を抽出する。
論文 参考訳(メタデータ) (2021-07-12T02:30:30Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z) - Joint Turn and Dialogue level User Satisfaction Estimation on
Multi-Domain Conversations [6.129731338249762]
ターンレベルと対話レベルのユーザ満足度を推定する現在の自動化手法は手作りの機能を採用している。
適応型マルチタスク損失関数を最小化する新しいユーザ満足度推定手法を提案する。
BiLSTMベースのディープニューラルネットワークモデルは、推定された対話レベル評価に対する各ターンのコントリビューションを自動的に評価する。
論文 参考訳(メタデータ) (2020-10-06T05:53:13Z) - CREDIT: Coarse-to-Fine Sequence Generation for Dialogue State Tracking [44.38388988238695]
対話状態トラッカーは、現在の対話状態のコンパクトな表現を正確に見つけることを目的としている。
我々はシーケンス生成問題として構造化状態表現とキャスト対話状態追跡を用いる。
我々のトラッカーは,MultiWOZ 2.0とMultiWOZ 2.1データセットの5つの領域で共同目標精度を向上することを示した。
論文 参考訳(メタデータ) (2020-09-22T10:27:18Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。