論文の概要: Towards Fair Evaluation of Dialogue State Tracking by Flexible
Incorporation of Turn-level Performances
- arxiv url: http://arxiv.org/abs/2204.03375v1
- Date: Thu, 7 Apr 2022 11:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:38:16.701400
- Title: Towards Fair Evaluation of Dialogue State Tracking by Flexible
Incorporation of Turn-level Performances
- Title(参考訳): ターンレベル性能の柔軟導入による対話状態追跡の公正評価に向けて
- Authors: Suvodip Dey, Ramamohan Kummara, Maunendra Sankar Desarkar
- Abstract要約: ダイアログ状態追跡(DST)は主に関節ゴール精度(JGA)を用いて評価される
誤予測が発生したら、正しい予測を得ることは困難である。
JGAの改善は、ターンレベルまたは非累積的信念状態予測の性能を低下させることがある。
フレキシブルゴール精度(FGA)という新しい評価指標を提案する。
- 参考スコア(独自算出の注目度): 5.607676459156789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue State Tracking (DST) is primarily evaluated using Joint Goal
Accuracy (JGA) defined as the fraction of turns where the ground-truth dialogue
state exactly matches the prediction. Generally in DST, the dialogue state or
belief state for a given turn contains all the intents shown by the user till
that turn. Due to this cumulative nature of the belief state, it is difficult
to get a correct prediction once a misprediction has occurred. Thus, although
being a useful metric, it can be harsh at times and underestimate the true
potential of a DST model. Moreover, an improvement in JGA can sometimes
decrease the performance of turn-level or non-cumulative belief state
prediction due to inconsistency in annotations. So, using JGA as the only
metric for model selection may not be ideal for all scenarios. In this work, we
discuss various evaluation metrics used for DST along with their shortcomings.
To address the existing issues, we propose a new evaluation metric named
Flexible Goal Accuracy (FGA). FGA is a generalized version of JGA. But unlike
JGA, it tries to give penalized rewards to mispredictions that are locally
correct i.e. the root cause of the error is an earlier turn. By doing so, FGA
considers the performance of both cumulative and turn-level prediction flexibly
and provides a better insight than the existing metrics. We also show that FGA
is a better discriminator of DST model performance.
- Abstract(参考訳): 対話状態追跡 (DST) は、主に、接地真実状態が正確に予測と一致するターンの分数として定義されるジョイントゴール精度 (JGA) を用いて評価される。
通常、DSTでは、あるターンの対話状態または信念状態は、そのターンまでユーザが示すすべてのインテントを含む。
このような信念状態の累積的な性質のため、誤予測が発生した場合に正しい予測を得るのは難しい。
したがって、有用な計量であるが、時には厳密であり、DSTモデルの真のポテンシャルを過小評価することがある。
さらに、JGAの改善は、アノテーションの不整合によるターンレベルまたは非累積的信念状態予測の性能を低下させることがある。
したがって、モデル選択のための唯一のメトリックとしてJGAを使用することは、すべてのシナリオに理想的ではないかもしれない。
そこで本研究では,DSTに用いる各種評価指標と欠点について考察する。
既存の問題に対処するため、フレキシブルゴール精度(FGA)という新しい評価指標を提案する。
FGAはJGAの一般化版である。
しかし、JGAとは異なり、局所的に正しい誤予測に対する罰則を与えようとする。
これにより、FGAは累積予測とターンレベルの予測の両方のパフォーマンスを柔軟に考慮し、既存のメトリクスよりも優れた洞察を提供する。
また、FGAはDSTモデルの性能のより良い判別器であることを示す。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Granular Change Accuracy: A More Accurate Performance Metric for Dialogue State Tracking [34.392893920243644]
グラニュラーチェンジ精度(GCA)について紹介する。
GCAは、対話履歴全体にわたる対話状態の変化の予測を評価することに重点を置いている。
その結果,GAAは分布の均一性や誤差の位置から生じるバイアスを効果的に低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-17T07:07:44Z) - Endowing Pre-trained Graph Models with Provable Fairness [49.8431177748876]
証明可能な公正性を持つ事前学習グラフモデル(GraphPAR)を実現する新しいアダプタチューニングフレームワークを提案する。
具体的には、各ノードに対して異なる属性意味を持つノード表現を拡張するために、ノード表現に対するセンシティブなセマンティックオーグメンタを設計する。
GraphPARでは、各ノードの公平性が証明可能であるかどうか、すなわち、予測が特定の機密属性セマンティクスの範囲内で常に公平であるかどうかを定量化する。
論文 参考訳(メタデータ) (2024-02-19T14:16:08Z) - Joint Metrics Matter: A Better Standard for Trajectory Forecasting [67.1375677218281]
マルチモーダル・トラジェクトリ・予測法 : シングルエージェント・メトリクス(マージナル・メトリクス)を用いた評価
余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡のばらつきといった、不自然な予測につながる可能性がある。
本稿では,JADE,JFDE,衝突速度といったマルチエージェントメトリクス(ジョイントメトリクス)に関して,最先端トラジェクトリ予測手法の総合評価を行った。
論文 参考訳(メタデータ) (2023-05-10T16:27:55Z) - Joint Optimization of Ranking and Calibration with Contextualized Hybrid
Model [24.66016187602343]
本稿では,短時間でランキング・アンド・アビリティ(JRC)を最適化する手法を提案する。
JRCは、サンプルのロジット値を異なるラベルで対比することでランキング能力を向上し、ロジットサブトラクションの関数である予測確率を制約する。
JRCはAlibabaのディスプレイ広告プラットフォームにデプロイされており、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-08-12T08:32:13Z) - What Can Secondary Predictions Tell Us? An Exploration on
Question-Answering with SQuAD-v2.0 [0.0]
我々は、例の黄金のランク(GR)を、根拠となる真実と正確に一致する最も自信のある予測のランクとして定義する。
我々が分析した16の変圧器モデルでは、第2の予測空間における正確に一致した黄金の答えの大部分は、最上位に非常に近い位置にある。
GRIM(Golden Rank Interpolated Median)と呼ばれる,テストセット全体の新しい集計統計を導出する。
論文 参考訳(メタデータ) (2022-06-29T01:17:47Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Social-Implicit: Rethinking Trajectory Prediction Evaluation and The
Effectiveness of Implicit Maximum Likelihood Estimation [21.643073517681973]
平均マハラノビス距離(英: Average Mahalanobis Distance、AMD)は、生成したサンプルがどれだけ近いかを測定する計量である。
平均最大固有値(英: Average Maximum Eigenvalue、AMV)は、予測の全体的拡散を定量化する計量である。
本稿では,従来の生成モデルに代えてImplicit Maximum Likelihood Estimation (IMLE)を導入し,そのモデルであるSocial-Implicitを学習する。
論文 参考訳(メタデータ) (2022-03-06T21:28:40Z) - CheckDST: Measuring Real-World Generalization of Dialogue State Tracking
Performance [18.936466253481363]
私たちは、拡張テストセットでよく知られた弱点をテストするために、CheckDSTと呼ばれるメトリクスの集合を設計します。
スパンベースの分類モデルは、名前のないエンティティには耐性があるが、言語の種類には堅牢ではない。
それぞれの弱点のため、どちらのアプローチも実際のデプロイメントには適していない。
論文 参考訳(メタデータ) (2021-12-15T18:10:54Z) - A Closer Look at Temporal Sentence Grounding in Videos: Datasets and
Metrics [70.45937234489044]
2つの広く使用されているTSGVデータセット(Charades-STAとActivityNet Captions)を再編成し、トレーニング分割と異なるものにします。
基本的なIoUスコアを校正するために、新しい評価基準「dR@$n$,IoU@$m$」を導入する。
すべての結果は、再編成されたデータセットと新しいメトリクスがTSGVの進捗をよりよく監視できることを示している。
論文 参考訳(メタデータ) (2021-01-22T09:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。