論文の概要: CEScore: Simple and Efficient Confidence Estimation Model for Evaluating
Split and Rephrase
- arxiv url: http://arxiv.org/abs/2312.01356v1
- Date: Sun, 3 Dec 2023 11:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:45:19.963053
- Title: CEScore: Simple and Efficient Confidence Estimation Model for Evaluating
Split and Rephrase
- Title(参考訳): CEScore:スプリットとリフレーズ評価のためのシンプルで効率的な信頼度推定モデル
- Authors: AlMotasem Bellah Al Ajlouni and Jinlong Li
- Abstract要約: 本稿では,SRタスクを自動評価する新しい統計モデルとしてCEScoreを紹介する。
人間がSRを評価する方法を模倣することで、CEScoreはシンプルさ、文法性、保存の意味、全体的な品質を評価する4つの指標を提供する。
26モデルの実験では、CEScoreは人間の評価と強く相関し、モデルレベルでのスピアマン相関で0.98に達する。
- 参考スコア(独自算出の注目度): 12.941846935434874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The split and rephrase (SR) task aims to divide a long, complex sentence into
a set of shorter, simpler sentences that convey the same meaning. This
challenging problem in NLP has gained increased attention recently because of
its benefits as a pre-processing step in other NLP tasks. Evaluating quality of
SR is challenging, as there no automatic metric fit to evaluate this task. In
this work, we introduce CEScore, as novel statistical model to automatically
evaluate SR task. By mimicking the way humans evaluate SR, CEScore provides 4
metrics (Sscore, Gscore, Mscore, and CEscore) to assess simplicity,
grammaticality, meaning preservation, and overall quality, respectively. In
experiments with 26 models, CEScore correlates strongly with human evaluations,
achieving 0.98 in Spearman correlations at model-level. This underscores the
potential of CEScore as a simple and effective metric for assessing the overall
quality of SR models.
- Abstract(参考訳): split and rephrase (SR) タスクは、長い複雑な文を、同じ意味を持つより短く単純な文の集合に分割することを目的としている。
NLPにおけるこの困難な問題は、他のNLPタスクにおける前処理ステップとしての利点から、最近注目を集めている。
SRの品質評価は、このタスクを評価するのに適合する自動計量が存在しないため、難しい。
本稿では,srタスクを自動的に評価する新しい統計モデルcescoreを紹介する。
人間がsrを評価する方法を模倣することで、cescoreは4つの指標(sscore、gscore、mscore、cescore)を提供し、それぞれ単純さ、文法性、意味保存、全体的な品質を評価する。
26モデルの実験では、CEScoreは人間の評価と強く相関し、モデルレベルでのスピアマン相関で0.98に達する。
これは、srモデルの全体的な品質を評価するためのシンプルで効果的な指標としてcescoreの可能性を強調する。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.38024658668887]
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Assessing ASR Model Quality on Disordered Speech using BERTScore [5.489867271342724]
単語誤り率(WER)は、自動音声認識(ASR)モデルの品質を評価するために使われる主要な指標である。
ASRモデルは、典型的な英語話者よりも、音声障害のある話者に対してWERがはるかに高い傾向にあることが示されている。
本研究では,テキスト生成のための評価指標であるBERTScoreを用いて,ASRモデルの品質と有用性について,より有益な指標を提供する。
論文 参考訳(メタデータ) (2022-09-21T18:33:33Z) - SummScore: A Comprehensive Evaluation Metric for Summary Quality Based
on Cross-Encoder [12.913447457411317]
SummScoreはCrossEncoderに基づいた要約品質評価のための総合的なメトリクスである。
包括性と解釈性を改善するため、SummScoreは4つのきめ細かいサブモデルで構成されている。
SummScoreは上記の4次元の既存の評価指標と人間のスコアとの相関を著しく上回っている。
論文 参考訳(メタデータ) (2022-07-11T06:47:29Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。