論文の概要: MENLI: Robust Evaluation Metrics from Natural Language Inference
- arxiv url: http://arxiv.org/abs/2208.07316v4
- Date: Tue, 11 Apr 2023 15:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 19:06:01.088755
- Title: MENLI: Robust Evaluation Metrics from Natural Language Inference
- Title(参考訳): menli: 自然言語推論によるロバストな評価指標
- Authors: Yanran Chen and Steffen Eger
- Abstract要約: 最近提案されたBERTベースのテキスト生成評価指標は、標準ベンチマークでは良好に機能するが、敵攻撃には弱い。
自然言語推論(NLI)に基づく評価指標を開発する。
我々のNLIベースのメトリクスは、最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。
- 参考スコア(独自算出の注目度): 23.381986209234157
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently proposed BERT-based evaluation metrics for text generation perform
well on standard benchmarks but are vulnerable to adversarial attacks, e.g.,
relating to information correctness. We argue that this stems (in part) from
the fact that they are models of semantic similarity. In contrast, we develop
evaluation metrics based on Natural Language Inference (NLI), which we deem a
more appropriate modeling. We design a preference-based adversarial attack
framework and show that our NLI based metrics are much more robust to the
attacks than the recent BERT-based metrics. On standard benchmarks, our NLI
based metrics outperform existing summarization metrics, but perform below SOTA
MT metrics. However, when combining existing metrics with our NLI metrics, we
obtain both higher adversarial robustness (15%-30%) and higher quality metrics
as measured on standard benchmarks (+5% to 30%).
- Abstract(参考訳): 最近提案されたBERTベースのテキスト生成評価指標は、標準的なベンチマークでよく機能するが、情報正当性などの敵攻撃に弱い。
これは、それらが意味的類似性のモデルであるという事実に由来する(一部)。
対照的に、我々は自然言語推論(NLI)に基づく評価指標を開発し、より適切なモデリングを行う。
我々は、嗜好ベースの敵攻撃フレームワークを設計し、我々のNLIベースのメトリクスが最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。
標準ベンチマークでは、NLIベースのメトリクスは既存の要約の指標よりも優れていますが、SOTA MTの指標よりは劣ります。
しかし、既存のメトリクスとNLIのメトリクスを組み合わせると、標準ベンチマーク(+5%から30%)で測定された高い逆の堅牢性(15%から30%)と高品質のメトリクスの両方が得られます。
関連論文リスト
- Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文 参考訳(メタデータ) (2024-10-07T16:42:10Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Embarrassingly Easy Document-Level MT Metrics: How to Convert Any
Pretrained Metric Into a Document-Level Metric [15.646714712131148]
文書レベルでコンテキストを組み込むための事前学習メトリクスを拡張する手法を提案する。
その結果, 実験条件の約85%において, 文章レベルの指標よりも高い結果が得られた。
我々の実験結果は、私たちの最初の仮説を支持し、メトリクスの単純な拡張によってコンテキストを活用できることを示す。
論文 参考訳(メタデータ) (2022-09-27T19:42:22Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Weisfeiler-Leman in the BAMBOO: Novel AMR Graph Metrics and a Benchmark
for AMR Graph Similarity [12.375561840897742]
従来の指標の強みを統一し,弱点を緩和する新しいAMR類似度指標を提案する。
具体的には、我々の新しいメトリクスは、コンテキスト化されたサブ構造にマッチし、ノード間のn:mアライメントを誘導することができる。
グラフベースMR類似度指標の実証評価を支援するために,オーバートオブジェクト(BAMBOO)に基づくAMRメトリクスのベンチマークを導入する。
論文 参考訳(メタデータ) (2021-08-26T17:58:54Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。