論文の概要: Granular Change Accuracy: A More Accurate Performance Metric for Dialogue State Tracking
- arxiv url: http://arxiv.org/abs/2403.11123v1
- Date: Sun, 17 Mar 2024 07:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:25:46.469157
- Title: Granular Change Accuracy: A More Accurate Performance Metric for Dialogue State Tracking
- Title(参考訳): 粒度変化の精度: 対話状態追跡のためのより正確なパフォーマンス指標
- Authors: Taha Aksu, Nancy F. Chen,
- Abstract要約: グラニュラーチェンジ精度(GCA)について紹介する。
GCAは、対話履歴全体にわたる対話状態の変化の予測を評価することに重点を置いている。
その結果,GAAは分布の均一性や誤差の位置から生じるバイアスを効果的に低減できることがわかった。
- 参考スコア(独自算出の注目度): 34.392893920243644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current metrics for evaluating Dialogue State Tracking (DST) systems exhibit three primary limitations. They: i) erroneously presume a uniform distribution of slots throughout the dialog, ii) neglect to assign partial scores for individual turns, iii) frequently overestimate or underestimate performance by repeatedly counting the models' successful or failed predictions. To address these shortcomings, we introduce a novel metric: Granular Change Accuracy (GCA). GCA focuses on evaluating the predicted changes in dialogue state over the entire dialogue history. Benchmarking reveals that GCA effectively reduces biases arising from distribution uniformity and the positioning of errors across turns, resulting in a more precise evaluation. Notably, we find that these biases are particularly pronounced when evaluating few-shot or zero-shot trained models, becoming even more evident as the model's error rate increases. Hence, GCA offers significant promise, particularly for assessing models trained with limited resources. Our GCA implementation is a useful addition to the pool of DST metrics.
- Abstract(参考訳): 対話状態追跡(DST)システムを評価するための現在の指標には3つの主要な制限がある。
彼らは
一 ダイアログを通してスロットの均一な分布を誤って想定すること。
二 個別の回転に部分的な得点を割り当てることを怠ること。
三 モデルの成功又は失敗の予測を繰り返し数えて、しばしば過大評価又は過小評価する。
これらの欠点に対処するため、グラニュラーチェンジ精度(GCA)という新しい指標を導入する。
GCAは、対話履歴全体にわたる対話状態の変化の予測を評価することに重点を置いている。
ベンチマークにより、GAAは分布の均一性から生じるバイアスを効果的に低減し、ターン間の誤差の位置決めを効果的に削減し、より正確な評価をもたらすことが明らかになった。
特に、これらのバイアスは、少数ショットまたはゼロショットの訓練されたモデルを評価するときに特に顕著であり、モデルのエラー率が増加するにつれてさらに顕著になる。
したがって、GCAは、特に限られたリソースで訓練されたモデルを評価するために、非常に有望である。
我々のGCA実装は、DSTメトリクスのプールに便利な追加です。
関連論文リスト
- Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - Mismatch between Multi-turn Dialogue and its Evaluation Metric in
Dialogue State Tracking [15.54992415806844]
対話状態追跡(DST)は,多方向対話の状況から重要な情報を抽出することを目的としている。
既存のメトリクスを補うために,textbfrelative slotの精度を提案する。
この研究は、共同目標精度の報告だけでなく、DSTタスクにおける様々な補完的指標も奨励する。
論文 参考訳(メタデータ) (2022-03-07T04:07:36Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - FairCanary: Rapid Continuous Explainable Fairness [8.362098382773265]
本稿では,新しいモデルバイアス量化尺度であるQuantile Demographic Drift(QDD)を提案する。
QDDは継続的な監視シナリオに最適であり、従来のしきい値ベースのバイアスメトリクスの統計的制限に悩まされない。
QDDをFairCanaryと呼ばれる継続的モデル監視システムに組み込み、各予測毎に計算された既存の説明を再利用します。
論文 参考訳(メタデータ) (2021-06-13T17:47:44Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers [92.5628632009802]
本稿では,このギャップを橋渡しし,新たなシナリオにおける対話状態追跡(DST)モデルを評価するための制御可能な対策(CoCo)を提案する。
CoCoは、2つのステップで新しい会話シナリオを生成する: (i) スロットをドロップして追加し、スロット値を置き換えて、 (ii) (i) で条件付きで対話フローと整合する対実会話生成。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしくなっている。
論文 参考訳(メタデータ) (2020-10-24T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。