論文の概要: Mismatch between Multi-turn Dialogue and its Evaluation Metric in
Dialogue State Tracking
- arxiv url: http://arxiv.org/abs/2203.03123v1
- Date: Mon, 7 Mar 2022 04:07:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 02:48:37.889906
- Title: Mismatch between Multi-turn Dialogue and its Evaluation Metric in
Dialogue State Tracking
- Title(参考訳): 対話状態追跡におけるマルチターン対話と評価基準のミスマッチ
- Authors: Takyoung Kim, Hoonsang Yoon, Yukyung Lee, Pilsung Kang, Misuk Kim
- Abstract要約: 対話状態追跡(DST)は,多方向対話の状況から重要な情報を抽出することを目的としている。
既存のメトリクスを補うために,textbfrelative slotの精度を提案する。
この研究は、共同目標精度の報告だけでなく、DSTタスクにおける様々な補完的指標も奨励する。
- 参考スコア(独自算出の注目度): 15.54992415806844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialogue state tracking (DST) aims to extract essential information from
multi-turn dialogue situations and take appropriate actions. A belief state,
one of the core pieces of information, refers to the subject and its specific
content, and appears in the form of \texttt{domain-slot-value}. The trained
model predicts "accumulated" belief states in every turn, and joint goal
accuracy and slot accuracy are mainly used to evaluate the prediction; however,
we specify that the current evaluation metrics have a critical limitation when
evaluating belief states accumulated as the dialogue proceeds, especially in
the most used MultiWOZ dataset. Additionally, we propose \textbf{relative slot
accuracy} to complement existing metrics. Relative slot accuracy does not
depend on the number of predefined slots, and allows intuitive evaluation by
assigning relative scores according to the turn of each dialogue. This study
also encourages not solely the reporting of joint goal accuracy, but also
various complementary metrics in DST tasks for the sake of a realistic
evaluation.
- Abstract(参考訳): 対話状態追跡(DST)は,多方向対話状況から重要な情報を抽出し,適切な行動を取ることを目的としている。
信念状態は、情報の中核の1つであり、主題とその特定の内容を指し、 \texttt{ domain-slot-value} の形で現れる。
トレーニングされたモデルは,各ターンに蓄積された信念状態を予測し,共同目標精度とスロット精度を主に予測評価に用いているが,対話の進行に伴って蓄積された信念状態を評価する場合,特に最もよく使用されるマルチWOZデータセットにおいて,現在の評価指標が臨界限界を有することを明記する。
さらに,既存のメトリクスを補完する‘textbf{relative slot accuracy’を提案する。
相対スロット精度は予め定義されたスロット数に依存しず、対話の順番に応じて相対スコアを割り当てることで直感的な評価を可能にする。
本研究は,共同目標精度の報告だけでなく,現実的な評価のために,DSTタスクにおける様々な相補的指標も推奨する。
関連論文リスト
- Chain of Thought Explanation for Dialogue State Tracking [52.015771676340016]
対話状態追跡(DST)は、会話中のユーザクエリと目標を記録することを目的としている。
DSTタスクに対してChain-of-Thought-Explanation(CoTE)というモデルを提案する。
CoTEはスロット値を決定した後、ステップバイステップで詳細な説明を作成するように設計されている。
論文 参考訳(メタデータ) (2024-03-07T16:59:55Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - ED-FAITH: Evaluating Dialogue Summarization on Faithfulness [35.73012379398233]
まず,対話要約のための忠実度尺度の体系的研究を行った。
我々は,ほとんどの指標が,ニュースデータセットでよく機能しているにもかかわらず,人間の判断と相関が低いことを観察した。
忠実度評価のための新しい尺度T0-Scoreを提案する。
論文 参考訳(メタデータ) (2022-11-15T19:33:50Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Coreference Augmentation for Multi-Domain Task-Oriented Dialogue State
Tracking [3.34618986084988]
本稿では,コア参照機能を明示的にモデル化したCDST(Coreference Dialogue State Tracker)を提案する。
MultiWOZ 2.1データセットの実験結果は、提案モデルが56.47%の最先端のジョイントゴール精度を達成していることを示している。
論文 参考訳(メタデータ) (2021-06-16T11:47:29Z) - CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers [92.5628632009802]
本稿では,このギャップを橋渡しし,新たなシナリオにおける対話状態追跡(DST)モデルを評価するための制御可能な対策(CoCo)を提案する。
CoCoは、2つのステップで新しい会話シナリオを生成する: (i) スロットをドロップして追加し、スロット値を置き換えて、 (ii) (i) で条件付きで対話フローと整合する対実会話生成。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしくなっている。
論文 参考訳(メタデータ) (2020-10-24T09:39:35Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。