論文の概要: WRDScore: New Metric for Evaluation of Natural Language Generation Models
- arxiv url: http://arxiv.org/abs/2405.19220v2
- Date: Tue, 18 Jun 2024 14:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 01:25:27.917974
- Title: WRDScore: New Metric for Evaluation of Natural Language Generation Models
- Title(参考訳): WRDScore: 自然言語生成モデル評価のための新しい指標
- Authors: Ravil Mussabayev,
- Abstract要約: 仮定に頼らずに精度とリコールを計測する新しい指標を提案する。
予測シーケンスと参照シーケンスの直接重複を測定することは、これらの微妙さを捉えることはできない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The problem of natural language generation, and, more specifically, method name prediction, faces significant difficulties when proposed models need to be evaluated on test data. Such a metric would need to consider the versatility with which a single method can be named, with respect to both semantics and syntax. Measuring the direct overlap between the predicted and reference (true) sequences will not be able to capture these subtleties. Other existing embedding based metrics either do not measure precision and recall or impose strict unrealistic assumptions on both sequences. To address these issues, we propose a new metric that, on the one hand, is very simple and lightweight, and, on the other hand, is able to calculate precision and recall without resorting to any assumptions while obtaining good performance with respect to the human judgement.
- Abstract(参考訳): 自然言語生成の問題や、より具体的にはメソッド名予測は、提案されたモデルがテストデータに基づいて評価される必要がある場合、重大な困難に直面します。
このようなメトリクスは、セマンティクスと構文の両方に関して、単一のメソッドを命名できる汎用性を考える必要がある。
予測された(真の)シーケンスと参照(真の)シーケンスの直接的な重複を測定することは、これらの微妙さを捉えることはできない。
他の埋め込みベースのメトリクスは、精度を測ったり、リコールしたり、両方のシーケンスに厳密な非現実的な仮定を課したりしない。
これらの問題に対処するため、我々は、非常にシンプルで軽量な新しい計量法を提案し、一方で、人間の判断に関して優れた性能を得ながら、仮定に頼らずに精度とリコールを計算することができる。
関連論文リスト
- Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - We Need to Talk About Classification Evaluation Metrics in NLP [34.73017509294468]
自然言語処理(NLP)モデルでは、一般化可能性は通常、精度、F-Measure、AUC-ROCといった標準メトリクスで測定される。
メトリクスの多様性とそれらのアプリケーションの任意性は、使用すべき最高のメトリックに対して、NLP内に合意がないことを示唆している。
ランダムガウス正規化Informednessメトリックがタスク性能の相似ベースラインであることを実証する。
論文 参考訳(メタデータ) (2024-01-08T11:40:48Z) - Training Normalizing Flows with the Precision-Recall Divergence [73.92251251511199]
特定精度リコールトレードオフを達成することは、em PR-divergencesと呼ぶ家族からの-divergencesの最小化に相当することを示す。
本稿では, 正規化フローをトレーニングして, 偏差を最小化し, 特に, 所与の高精度リコールトレードオフを実現する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2023-02-01T17:46:47Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - Local Evaluation of Time Series Anomaly Detection Algorithms [9.717823994163277]
本稿では,弱い仮定下でのほとんどすべてのデータセットに対して,逆アルゴリズムが高精度に到達し,リコール可能であることを示す。
本稿では,精度/リコール指標に対する理論的基盤,頑健,パラメータフリー,解釈可能な拡張を提案する。
論文 参考訳(メタデータ) (2022-06-27T10:18:41Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Information-Theoretic Probing with Minimum Description Length [74.29846942213445]
我々は,最小記述長 (MDL) を持つ情報理論探索法である標準プローブの代替案を提案する。
MDL Probingでは、ラベルを予測するためのプローブのトレーニングが、データを効果的に送信するための教えとして再キャストされる。
これらの手法は結果に一致し、標準プローブよりも情報的かつ安定であることを示す。
論文 参考訳(メタデータ) (2020-03-27T09:35:38Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。