論文の概要: WRDScore: New Metric for Evaluation of Natural Language Generation Models
- arxiv url: http://arxiv.org/abs/2405.19220v3
- Date: Tue, 25 Jun 2024 10:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 19:39:42.362552
- Title: WRDScore: New Metric for Evaluation of Natural Language Generation Models
- Title(参考訳): WRDScore: 自然言語生成モデル評価のための新しい指標
- Authors: Ravil Mussabayev,
- Abstract要約: 仮定に頼らずに精度とリコールを計測する新しい指標を提案する。
予測シーケンスと参照シーケンスの直接重複を測定することは、これらの微妙さを捉えることはできない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The problem of natural language generation, and, more specifically, method name prediction, faces significant difficulties when proposed models need to be evaluated on test data. Such a metric would need to consider the versatility with which a single method can be named, with respect to both semantics and syntax. Measuring the direct overlap between the predicted and reference (true) sequences will not be able to capture these subtleties. Other existing embedding based metrics either do not measure precision and recall or impose strict unrealistic assumptions on both sequences. To address these issues, we propose a new metric that, on the one hand, is very simple and lightweight, and, on the other hand, is able to calculate precision and recall without resorting to any assumptions while obtaining good performance with respect to the human judgement.
- Abstract(参考訳): 自然言語生成の問題や、より具体的にはメソッド名予測は、提案されたモデルがテストデータに基づいて評価される必要がある場合、重大な困難に直面します。
このようなメトリクスは、セマンティクスと構文の両方に関して、単一のメソッドを命名できる汎用性を考える必要がある。
予測された(真の)シーケンスと参照(真の)シーケンスの直接的な重複を測定することは、これらの微妙さを捉えることはできない。
他の埋め込みベースのメトリクスは、精度を測ったり、リコールしたり、両方のシーケンスに厳密な非現実的な仮定を課したりしない。
これらの問題に対処するため、我々は、非常にシンプルで軽量な新しい計量法を提案し、一方で、人間の判断に関して優れた性能を得ながら、仮定に頼らずに精度とリコールを計算することができる。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Predicting generalization performance with correctness discriminators [64.00420578048855]
未確認データに対して,金のラベルを必要とせず,精度の上下境界を確立する新しいモデルを提案する。
予測された上境界と下限の間に金の精度が確実に成立する様々なタグ付け、構文解析、意味解析タスクを示す。
論文 参考訳(メタデータ) (2023-11-15T22:43:42Z) - Robust Ordinal Regression for Subsets Comparisons with Interactions [2.6151761714896122]
本稿では,サブセット間の意思決定者の好みを学習するための厳密な順序付け手法を提案する。
Fishburn と LaValle から派生した決定モデルは、部分集合上の厳密な弱順序と互換性を持つほど一般である。
予測された嗜好が、すべての最も単純なモデル(オッカムのカミソリ)がその嗜好データに一致する場合、信頼できると考えられる。
論文 参考訳(メタデータ) (2023-08-07T07:54:33Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Stability-Adjusted Cross-Validation for Sparse Linear Regression [5.156484100374059]
k倍のクロスバリデーションのようなクロスバリデーション技術はスパース回帰の計算コストを大幅に増大させる。
クロスバリデーションメトリックの重み付け和とモデルの出力安定性を最小化するハイパーパラメータの選択を提案する。
我々の信頼度調整手順は、13の実世界のデータセット上で、テストセットエラーを平均で2%削減する。
論文 参考訳(メタデータ) (2023-06-26T17:02:45Z) - Joint Metrics Matter: A Better Standard for Trajectory Forecasting [67.1375677218281]
マルチモーダル・トラジェクトリ・予測法 : シングルエージェント・メトリクス(マージナル・メトリクス)を用いた評価
余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡のばらつきといった、不自然な予測につながる可能性がある。
本稿では,JADE,JFDE,衝突速度といったマルチエージェントメトリクス(ジョイントメトリクス)に関して,最先端トラジェクトリ予測手法の総合評価を行った。
論文 参考訳(メタデータ) (2023-05-10T16:27:55Z) - Partial sequence labeling with structured Gaussian Processes [8.239028141030621]
部分列ラベリングのための構造付きガウス過程を提案する。
予測の不確実性を符号化し、モデル選択やハイパーパラメータ学習に余分な労力を要しない。
いくつかのシーケンスラベリングタスクで評価を行い,実験結果から提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-09-20T00:56:49Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Local Evaluation of Time Series Anomaly Detection Algorithms [9.717823994163277]
本稿では,弱い仮定下でのほとんどすべてのデータセットに対して,逆アルゴリズムが高精度に到達し,リコール可能であることを示す。
本稿では,精度/リコール指標に対する理論的基盤,頑健,パラメータフリー,解釈可能な拡張を提案する。
論文 参考訳(メタデータ) (2022-06-27T10:18:41Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。