論文の概要: SMART: Sentences as Basic Units for Text Evaluation
- arxiv url: http://arxiv.org/abs/2208.01030v1
- Date: Mon, 1 Aug 2022 17:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:34:43.721523
- Title: SMART: Sentences as Basic Units for Text Evaluation
- Title(参考訳): SMART:テキスト評価の基本単位としての文
- Authors: Reinald Kim Amplayo, Peter J. Liu, Yao Zhao, Shashi Narayan
- Abstract要約: 本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
- 参考スコア(独自算出の注目度): 48.5999587529085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Widely used evaluation metrics for text generation either do not work well
with longer texts or fail to evaluate all aspects of text quality. In this
paper, we introduce a new metric called SMART to mitigate such limitations.
Specifically, We treat sentences as basic units of matching instead of tokens,
and use a sentence matching function to soft-match candidate and reference
sentences. Candidate sentences are also compared to sentences in the source
documents to allow grounding (e.g., factuality) evaluation. Our results show
that system-level correlations of our proposed metric with a model-based
matching function outperforms all competing metrics on the SummEval
summarization meta-evaluation dataset, while the same metric with a
string-based matching function is competitive with current model-based metrics.
The latter does not use any neural model, which is useful during model
development phases where resources can be limited and fast evaluation is
required. Finally, we also conducted extensive analyses showing that our
proposed metrics work well with longer summaries and are less biased towards
specific models.
- Abstract(参考訳): テキスト生成に広く使用される評価指標は、長いテキストではうまく動作しないか、テキスト品質のすべての側面を評価できないかのいずれかである。
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
具体的には,文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
候補文はソース文書の文と比較され、根拠付け(例えば事実性)の評価が可能である。
この結果から,提案手法とモデルベースマッチング関数のシステムレベルの相関は,SummEvalの要約メタ評価データセット上での競合指標よりも優れており,文字列ベースマッチング関数の類似指標は現行のモデルベースメトリクスと競合することがわかった。
後者は神経モデルを使用しないが、リソースが制限され、迅速な評価が必要となるモデル開発フェーズで有用である。
最後に,提案するメトリクスがより長い要約でうまく機能し,特定のモデルに対する偏りが少ないことを示す広範な分析を行った。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - We Need to Talk About Classification Evaluation Metrics in NLP [34.73017509294468]
自然言語処理(NLP)モデルでは、一般化可能性は通常、精度、F-Measure、AUC-ROCといった標準メトリクスで測定される。
メトリクスの多様性とそれらのアプリケーションの任意性は、使用すべき最高のメトリックに対して、NLP内に合意がないことを示唆している。
ランダムガウス正規化Informednessメトリックがタスク性能の相似ベースラインであることを実証する。
論文 参考訳(メタデータ) (2024-01-08T11:40:48Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。