論文の概要: CEScore: Simple and Efficient Confidence Estimation Model for Evaluating
Split and Rephrase
- arxiv url: http://arxiv.org/abs/2312.01356v1
- Date: Sun, 3 Dec 2023 11:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:45:19.963053
- Title: CEScore: Simple and Efficient Confidence Estimation Model for Evaluating
Split and Rephrase
- Title(参考訳): CEScore:スプリットとリフレーズ評価のためのシンプルで効率的な信頼度推定モデル
- Authors: AlMotasem Bellah Al Ajlouni and Jinlong Li
- Abstract要約: 本稿では,SRタスクを自動評価する新しい統計モデルとしてCEScoreを紹介する。
人間がSRを評価する方法を模倣することで、CEScoreはシンプルさ、文法性、保存の意味、全体的な品質を評価する4つの指標を提供する。
26モデルの実験では、CEScoreは人間の評価と強く相関し、モデルレベルでのスピアマン相関で0.98に達する。
- 参考スコア(独自算出の注目度): 12.941846935434874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The split and rephrase (SR) task aims to divide a long, complex sentence into
a set of shorter, simpler sentences that convey the same meaning. This
challenging problem in NLP has gained increased attention recently because of
its benefits as a pre-processing step in other NLP tasks. Evaluating quality of
SR is challenging, as there no automatic metric fit to evaluate this task. In
this work, we introduce CEScore, as novel statistical model to automatically
evaluate SR task. By mimicking the way humans evaluate SR, CEScore provides 4
metrics (Sscore, Gscore, Mscore, and CEscore) to assess simplicity,
grammaticality, meaning preservation, and overall quality, respectively. In
experiments with 26 models, CEScore correlates strongly with human evaluations,
achieving 0.98 in Spearman correlations at model-level. This underscores the
potential of CEScore as a simple and effective metric for assessing the overall
quality of SR models.
- Abstract(参考訳): split and rephrase (SR) タスクは、長い複雑な文を、同じ意味を持つより短く単純な文の集合に分割することを目的としている。
NLPにおけるこの困難な問題は、他のNLPタスクにおける前処理ステップとしての利点から、最近注目を集めている。
SRの品質評価は、このタスクを評価するのに適合する自動計量が存在しないため、難しい。
本稿では,srタスクを自動的に評価する新しい統計モデルcescoreを紹介する。
人間がsrを評価する方法を模倣することで、cescoreは4つの指標(sscore、gscore、mscore、cescore)を提供し、それぞれ単純さ、文法性、意味保存、全体的な品質を評価する。
26モデルの実験では、CEScoreは人間の評価と強く相関し、モデルレベルでのスピアマン相関で0.98に達する。
これは、srモデルの全体的な品質を評価するためのシンプルで効果的な指標としてcescoreの可能性を強調する。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation
using Generative Models [74.43215520371506]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Assessing ASR Model Quality on Disordered Speech using BERTScore [5.489867271342724]
単語誤り率(WER)は、自動音声認識(ASR)モデルの品質を評価するために使われる主要な指標である。
ASRモデルは、典型的な英語話者よりも、音声障害のある話者に対してWERがはるかに高い傾向にあることが示されている。
本研究では,テキスト生成のための評価指標であるBERTScoreを用いて,ASRモデルの品質と有用性について,より有益な指標を提供する。
論文 参考訳(メタデータ) (2022-09-21T18:33:33Z) - SummScore: A Comprehensive Evaluation Metric for Summary Quality Based
on Cross-Encoder [12.913447457411317]
SummScoreはCrossEncoderに基づいた要約品質評価のための総合的なメトリクスである。
包括性と解釈性を改善するため、SummScoreは4つのきめ細かいサブモデルで構成されている。
SummScoreは上記の4次元の既存の評価指標と人間のスコアとの相関を著しく上回っている。
論文 参考訳(メタデータ) (2022-07-11T06:47:29Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - WIDAR -- Weighted Input Document Augmented ROUGE [26.123086537577155]
提案する指標WIDARは,基準要約の品質に応じて評価スコアを適応させるように設計されている。
提案指標は, 整合性, 整合性, 流速性, 人的判断の関連性において, ROUGEよりも26%, 76%, 82%, 15%の相関関係を示した。
論文 参考訳(メタデータ) (2022-01-23T14:40:42Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Perception Score, A Learned Metric for Open-ended Text Generation
Evaluation [62.7690450616204]
本稿では,新しい,強力な学習ベース評価尺度を提案する。
本手法は,単語の重なり合いなどの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を測定し,一律に得点する。
論文 参考訳(メタデータ) (2020-08-07T10:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。