論文の概要: Rethinking Automatic Evaluation in Sentence Simplification
- arxiv url: http://arxiv.org/abs/2104.07560v2
- Date: Fri, 16 Apr 2021 08:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 10:52:21.552199
- Title: Rethinking Automatic Evaluation in Sentence Simplification
- Title(参考訳): 文簡易化における自動評価の再検討
- Authors: Thomas Scialom, Louis Martin, Jacopo Staiano, \'Eric Villemonte de la
Clergerie, Beno\^it Sagot
- Abstract要約: 文の簡略化に取り組むためのQuestEvalの簡単な修正を提案します。
我々は,後者がBLEUやSARIといった標準指標よりも優れた,最先端の相関関係が得られることを示す。
評価された単純化のコーパスを新たにリリースし,今回はシステムが生成するのではなく,人間が記述した。
- 参考スコア(独自算出の注目度): 10.398614920404727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation remains an open research question in Natural Language
Generation. In the context of Sentence Simplification, this is particularly
challenging: the task requires by nature to replace complex words with simpler
ones that shares the same meaning. This limits the effectiveness of n-gram
based metrics like BLEU. Going hand in hand with the recent advances in NLG,
new metrics have been proposed, such as BERTScore for Machine Translation. In
summarization, the QuestEval metric proposes to automatically compare two texts
by questioning them.
In this paper, we first propose a simple modification of QuestEval allowing
it to tackle Sentence Simplification. We then extensively evaluate the
correlations w.r.t. human judgement for several metrics including the recent
BERTScore and QuestEval, and show that the latter obtain state-of-the-art
correlations, outperforming standard metrics like BLEU and SARI. More
importantly, we also show that a large part of the correlations are actually
spurious for all the metrics. To investigate this phenomenon further, we
release a new corpus of evaluated simplifications, this time not generated by
systems but instead, written by humans. This allows us to remove the spurious
correlations and draw very different conclusions from the original ones,
resulting in a better understanding of these metrics. In particular, we raise
concerns about very low correlations for most of traditional metrics. Our
results show that the only significant measure of the Meaning Preservation is
our adaptation of QuestEval.
- Abstract(参考訳): 自動評価は自然言語生成におけるオープンリサーチの課題である。
文の単純化という文脈では、これは特に難しい。タスクは自然に複雑な単語を同じ意味を持つ単純な単語に置き換えることを必要とする。
これにより、BLEUのようなn-gramベースのメトリクスの有効性が制限される。
NLGの最近の進歩と並行して、BERTScore for Machine Translationのような新しいメトリクスが提案されている。
要約において、QuestEvalメトリックは2つのテキストを質問して自動的に比較することを提案する。
本稿では,まず,文の簡略化に取り組むことを可能にするクエステバルの簡単な修正を提案する。
次に、相関関係 w.r.t を広範囲に評価する。
最近のBERTScoreやQuestEvalなど、いくつかのメトリクスに対する人間の判断は、後者が最先端の相関を得ており、BLEUやSARIのような標準メトリクスよりも優れていることを示している。
さらに重要なことは、相関の大部分が実際にはすべての指標に拍車をかけることを示しています。
この現象をさらに調査するため、評価された単純化の新たなコーパスを公開し、今回はシステムによってではなく、人間によって書かれた。
これにより、スプリアス相関を取り除き、元の相関とは全く異なる結論を導き、その結果、これらのメトリクスをよりよく理解することができます。
特に、従来のメトリクスのほとんどに対して、非常に低い相関関係に関する懸念を提起します。
以上の結果から, 意味保存の唯一の重要な尺度は, 課題適応であることがわかった。
関連論文リスト
- Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation [21.650619533772232]
「本研究は、要約文の表層的属性が事実性を予測するのに十分であるか否かを調査する。」
そして, 実測値が矛盾した要約の事実修正にどのように反応するかを評価し, 有意義な改善を示すものはごくわずかであることを確認した。
これらの知見に触発されて、生成した要約に無害な文を付加することにより、(最も)自動的事実性指標、すなわち、確実に事実性スコアをインフレーションすることができることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:15:15Z) - Evaluating Document Simplification: On the Importance of Separately Assessing Simplicity and Meaning Preservation [9.618393813409266]
本稿では,文書レベルの簡易化評価に焦点をあてる。
我々は、意味の保存と単純化のために異なる指標を用いて既存のモデルを比較した。
我々は、単純さのために参照なし計量変種を導入し、モデルは、単純化または意味保存のどちらにも偏っていることを示す。
論文 参考訳(メタデータ) (2024-04-04T08:04:24Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Simplicity Level Estimate (SLE): A Learned Reference-Less Metric for
Sentence Simplification [8.479659578608233]
文単純化のための学習評価基準(SLE)を提案する。
SLEは単純さに重点を置いており、人間の判断と相関して既存の指標のほとんどを上回ります。
論文 参考訳(メタデータ) (2023-10-12T09:49:10Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - On Quantitative Evaluations of Counterfactuals [88.42660013773647]
本稿では、分析と実験を通じて、視覚的対実例の評価に関する研究を集約する。
ほとんどのメトリクスは、十分な単純なデータセットを意図して振る舞うが、複雑さが増加すると、良い結果と悪い結果の違いを判断できないものもいる。
私たちはラベル変動スコアとOracleスコアという2つの新しい指標を提案しています。
論文 参考訳(メタデータ) (2021-10-30T05:00:36Z) - Global Explainability of BERT-Based Evaluation Metrics by Disentangling
along Linguistic Factors [14.238125731862658]
我々は意味論、構文学、形態学、語彙的重複を含む言語的要因に沿ってメートル法スコアをアンタングルする。
異なるメトリクスがすべての側面をある程度捉えていることを示すが、これらはすべてBLEUやROUGEと同じように、語彙重なりにかなり敏感である。
論文 参考訳(メタデータ) (2021-10-08T22:40:33Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。