論文の概要: WRDScore: New Metric for Evaluation of Natural Language Generation Models
- arxiv url: http://arxiv.org/abs/2405.19220v5
- Date: Tue, 13 Aug 2024 13:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 22:15:08.208480
- Title: WRDScore: New Metric for Evaluation of Natural Language Generation Models
- Title(参考訳): WRDScore: 自然言語生成モデル評価のための新しい指標
- Authors: Ravil Mussabayev,
- Abstract要約: 堅牢な計量は、意味的および統語的バリエーションの両方を考慮して、メソッド命名の汎用性を考慮する必要がある。
既存の埋め込みベースのメトリクスは、しばしば不均衡な精度とリコール、正規化されたスコアの欠如、シーケンスに関する非現実的な仮定に悩まされる。
我々は、最適輸送の理論を活用し、単純性と有効性のバランスをとる新しい計量であるWRDScoreを構築します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluating natural language generation models, particularly for method name prediction, poses significant challenges. A robust metric must account for the versatility of method naming, considering both semantic and syntactic variations. Traditional overlap-based metrics, such as ROUGE, fail to capture these nuances. Existing embedding-based metrics often suffer from imbalanced precision and recall, lack normalized scores, or make unrealistic assumptions about sequences. To address these limitations, we leverage the theory of optimal transport and construct WRDScore, a novel metric that strikes a balance between simplicity and effectiveness. In the WRDScore framework, we define precision as the maximum degree to which the predicted sequence's tokens are included in the reference sequence, token by token. Recall is calculated as the total cost of the optimal transport plan that maps the reference sequence to the predicted one. Finally, WRDScore is computed as the harmonic mean of precision and recall, balancing these two complementary metrics. Our metric is lightweight, normalized, and precision-recall-oriented, avoiding unrealistic assumptions while aligning well with human judgments. Experiments on a human-curated dataset confirm the superiority of WRDScore over other available text metrics.
- Abstract(参考訳): 自然言語生成モデルの評価、特にメソッド名予測は、大きな課題となっている。
堅牢な計量は、意味的および統語的バリエーションの両方を考慮して、メソッド命名の汎用性を考慮する必要がある。
ROUGEのような従来の重複ベースのメトリクスは、これらのニュアンスをキャプチャできない。
既存の埋め込みベースのメトリクスは、しばしば不均衡な精度とリコール、正規化されたスコアの欠如、シーケンスに関する非現実的な仮定に悩まされる。
これらの制約に対処するために、最適な輸送理論を活用し、単純さと有効性のバランスをとる新しい計量であるWRDScoreを構築します。
WRDScoreフレームワークでは、予測シーケンスのトークンが参照シーケンスに含まれる最大度として、トークン単位のトークンとして精度を定義する。
リコールは、参照シーケンスを予測されたものとマッピングする最適な輸送計画の総コストとして計算される。
最後に、WRDScoreは2つの相補的なメトリクスのバランスをとり、精度とリコールの調和平均として計算される。
我々の計量は軽量で、正規化され、精度の高いリコール指向であり、非現実的な仮定を避けつつ、人間の判断とうまく一致している。
人間計算データセットの実験では、WRDScoreが他の利用可能なテキストメトリクスよりも優れていることが確認されている。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Predicting generalization performance with correctness discriminators [64.00420578048855]
未確認データに対して,金のラベルを必要とせず,精度の上下境界を確立する新しいモデルを提案する。
予測された上境界と下限の間に金の精度が確実に成立する様々なタグ付け、構文解析、意味解析タスクを示す。
論文 参考訳(メタデータ) (2023-11-15T22:43:42Z) - Robust Ordinal Regression for Subsets Comparisons with Interactions [2.6151761714896122]
本稿では,サブセット間の意思決定者の好みを学習するための厳密な順序付け手法を提案する。
Fishburn と LaValle から派生した決定モデルは、部分集合上の厳密な弱順序と互換性を持つほど一般である。
予測された嗜好が、すべての最も単純なモデル(オッカムのカミソリ)がその嗜好データに一致する場合、信頼できると考えられる。
論文 参考訳(メタデータ) (2023-08-07T07:54:33Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Stability-Adjusted Cross-Validation for Sparse Linear Regression [5.156484100374059]
k倍のクロスバリデーションのようなクロスバリデーション技術はスパース回帰の計算コストを大幅に増大させる。
クロスバリデーションメトリックの重み付け和とモデルの出力安定性を最小化するハイパーパラメータの選択を提案する。
我々の信頼度調整手順は、13の実世界のデータセット上で、テストセットエラーを平均で2%削減する。
論文 参考訳(メタデータ) (2023-06-26T17:02:45Z) - Joint Metrics Matter: A Better Standard for Trajectory Forecasting [67.1375677218281]
マルチモーダル・トラジェクトリ・予測法 : シングルエージェント・メトリクス(マージナル・メトリクス)を用いた評価
余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡のばらつきといった、不自然な予測につながる可能性がある。
本稿では,JADE,JFDE,衝突速度といったマルチエージェントメトリクス(ジョイントメトリクス)に関して,最先端トラジェクトリ予測手法の総合評価を行った。
論文 参考訳(メタデータ) (2023-05-10T16:27:55Z) - Partial sequence labeling with structured Gaussian Processes [8.239028141030621]
部分列ラベリングのための構造付きガウス過程を提案する。
予測の不確実性を符号化し、モデル選択やハイパーパラメータ学習に余分な労力を要しない。
いくつかのシーケンスラベリングタスクで評価を行い,実験結果から提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-09-20T00:56:49Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Local Evaluation of Time Series Anomaly Detection Algorithms [9.717823994163277]
本稿では,弱い仮定下でのほとんどすべてのデータセットに対して,逆アルゴリズムが高精度に到達し,リコール可能であることを示す。
本稿では,精度/リコール指標に対する理論的基盤,頑健,パラメータフリー,解釈可能な拡張を提案する。
論文 参考訳(メタデータ) (2022-06-27T10:18:41Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。