Fugu-MT 論文翻訳(概要): WRDScore: New Metric for Evaluation of Natural Language Generation Models

論文の概要: WRDScore: New Metric for Evaluation of Natural Language Generation Models

arxiv url: http://arxiv.org/abs/2405.19220v3
Date: Tue, 25 Jun 2024 10:41:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 19:39:42.362552
Title: WRDScore: New Metric for Evaluation of Natural Language Generation Models
Title（参考訳）: WRDScore: 自然言語生成モデル評価のための新しい指標
Authors: Ravil Mussabayev,
Abstract要約: 仮定に頼らずに精度とリコールを計測する新しい指標を提案する。予測シーケンスと参照シーケンスの直接重複を測定することは、これらの微妙さを捉えることはできない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The problem of natural language generation, and, more specifically, method name prediction, faces significant difficulties when proposed models need to be evaluated on test data. Such a metric would need to consider the versatility with which a single method can be named, with respect to both semantics and syntax. Measuring the direct overlap between the predicted and reference (true) sequences will not be able to capture these subtleties. Other existing embedding based metrics either do not measure precision and recall or impose strict unrealistic assumptions on both sequences. To address these issues, we propose a new metric that, on the one hand, is very simple and lightweight, and, on the other hand, is able to calculate precision and recall without resorting to any assumptions while obtaining good performance with respect to the human judgement.
Abstract（参考訳）: 自然言語生成の問題や、より具体的にはメソッド名予測は、提案されたモデルがテストデータに基づいて評価される必要がある場合、重大な困難に直面します。このようなメトリクスは、セマンティクスと構文の両方に関して、単一のメソッドを命名できる汎用性を考える必要がある。予測された(真の)シーケンスと参照(真の)シーケンスの直接的な重複を測定することは、これらの微妙さを捉えることはできない。他の埋め込みベースのメトリクスは、精度を測ったり、リコールしたり、両方のシーケンスに厳密な非現実的な仮定を課したりしない。これらの問題に対処するため、我々は、非常にシンプルで軽量な新しい計量法を提案し、一方で、人間の判断に関して優れた性能を得ながら、仮定に頼らずに精度とリコールを計算することができる。

関連論文リスト

Evaluating Numerical Accuracy in Mixed-Precision Computing by Dual-Delta Testing [0.7106986689736828]
独自の混合精度関数を実装する際には,それらの数値精度を検証することが重要である。従来のアプローチでは、単一のエラーメトリックを使用して参照に対するカスタム実装を比較するのが一般的である。本稿では,2つの誤差分布を高精度なオラクルに対して評価する手法であるtextitDual-Delta Testingを紹介する。
論文参考訳（メタデータ） (2026-02-11T07:54:04Z)
Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals [18.612081365101464]
我々は,標準ラベル付き結果と,モデルが補助的推論連鎖を判断することで得られるペアワイズ比較信号とを組み合わせたフレームワークを開発する。シミュレーション全体では, モデル出力ノイズの増加に伴い, 評価精度が大幅に向上し, ゲインが増大する。 GPQA Diamond、AIME 2025、GSM8Kの実験では、より正確な性能推定とより信頼性の高いモデルランキングが示されている。
論文参考訳（メタデータ） (2026-02-03T03:40:01Z)
Cost-Sensitive Evaluation for Binary Classifiers [0.013048920509133805]
重み付き精度(英: Weighted Accuracy, WA)は、よく知られた精度の計量の重み付きバージョンとして、直接解釈されたバイナリ分類器の評価指標である。コスト依存シナリオにおけるクラス不均衡を扱うための概念的枠組みを明らかにする。
論文参考訳（メタデータ） (2025-10-24T20:34:18Z)
AcuRank: Uncertainty-Aware Adaptive Computation for Listwise Reranking [25.459771464139855]
大規模言語モデル (LLMs) によるリストのランク付けは、検索ベースのアプリケーションにおいて上位のランク付けされた結果を強化する。 AcuRank は文書関連性に対する不確実性推定に基づいて動的に計算量と目標を調節する適応型再ランクフレームワークである。 TREC-DLとBEIRのベンチマークの結果から,提案手法は精度・効率のトレードオフを一貫して達成し,固定計算ベースラインよりも計算能力に優れることがわかった。
論文参考訳（メタデータ） (2025-05-24T05:15:49Z)
On the Robust Approximation of ASR Metrics [30.524282767961463]
そこで本研究では,ASR性能指標の近似に新たなアプローチを提案し,真理ラベルの必要性を排除した。提案手法は,音声および転写表現の統一空間におけるマルチモーダル埋め込みと,高品質なプロキシモデルを組み合わせることで,プロキシメトリクスの計算を行う。実験結果から, 測定値の絶対差を1桁に近似し, 最新のベースラインを50%以上上回る結果を得た。
論文参考訳（メタデータ） (2025-02-18T01:10:17Z)
Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文参考訳（メタデータ） (2024-11-04T14:29:02Z)
Predicting generalization performance with correctness discriminators [64.00420578048855]
未確認データに対して,金のラベルを必要とせず,精度の上下境界を確立する新しいモデルを提案する。予測された上境界と下限の間に金の精度が確実に成立する様々なタグ付け、構文解析、意味解析タスクを示す。
論文参考訳（メタデータ） (2023-11-15T22:43:42Z)
Robust Ordinal Regression for Subsets Comparisons with Interactions [2.6151761714896122]
本稿では,サブセット間の意思決定者の好みを学習するための厳密な順序付け手法を提案する。 Fishburn と LaValle から派生した決定モデルは、部分集合上の厳密な弱順序と互換性を持つほど一般である。予測された嗜好が、すべての最も単純なモデル(オッカムのカミソリ)がその嗜好データに一致する場合、信頼できると考えられる。
論文参考訳（メタデータ） (2023-08-07T07:54:33Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
Stability-Adjusted Cross-Validation for Sparse Linear Regression [5.156484100374059]
k倍のクロスバリデーションのようなクロスバリデーション技術はスパース回帰の計算コストを大幅に増大させる。クロスバリデーションメトリックの重み付け和とモデルの出力安定性を最小化するハイパーパラメータの選択を提案する。我々の信頼度調整手順は、13の実世界のデータセット上で、テストセットエラーを平均で2%削減する。
論文参考訳（メタデータ） (2023-06-26T17:02:45Z)
Joint Metrics Matter: A Better Standard for Trajectory Forecasting [67.1375677218281]
マルチモーダル・トラジェクトリ・予測法 : シングルエージェント・メトリクス(マージナル・メトリクス)を用いた評価余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡のばらつきといった、不自然な予測につながる可能性がある。本稿では,JADE,JFDE,衝突速度といったマルチエージェントメトリクス(ジョイントメトリクス)に関して,最先端トラジェクトリ予測手法の総合評価を行った。
論文参考訳（メタデータ） (2023-05-10T16:27:55Z)
Partial sequence labeling with structured Gaussian Processes [8.239028141030621]
部分列ラベリングのための構造付きガウス過程を提案する。予測の不確実性を符号化し、モデル選択やハイパーパラメータ学習に余分な労力を要しない。いくつかのシーケンスラベリングタスクで評価を行い,実験結果から提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-09-20T00:56:49Z)
SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文参考訳（メタデータ） (2022-08-01T17:58:05Z)
Local Evaluation of Time Series Anomaly Detection Algorithms [9.717823994163277]
本稿では,弱い仮定下でのほとんどすべてのデータセットに対して,逆アルゴリズムが高精度に到達し,リコール可能であることを示す。本稿では,精度/リコール指標に対する理論的基盤,頑健,パラメータフリー,解釈可能な拡張を提案する。
論文参考訳（メタデータ） (2022-06-27T10:18:41Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)
Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文参考訳（メタデータ） (2021-06-03T05:56:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。