論文の概要: DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence
- arxiv url: http://arxiv.org/abs/2201.11176v1
- Date: Wed, 26 Jan 2022 20:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 14:42:44.600287
- Title: DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence
- Title(参考訳): DiscoScore: BERT と Discourse Coherence によるテキスト生成の評価
- Authors: Wei Zhao, Michael Strube, Steffen Eger
- Abstract要約: 複数の変種を持つ談話計量であるDiscoScoreを導入し、BERTを用いて異なる視点から談話コヒーレンスをモデル化する。
実験は、DiscoScoreや一般的なコヒーレンスモデルを含む16の非談話および談話メトリクスを含む。
- 参考スコア(独自算出の注目度): 30.10146423935216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently has there been a growing interest in the creation of text generation
systems from a discourse coherence perspective, e.g., modeling the
interdependence between sentences. Still, recent BERT-based evaluation metrics
cannot recognize coherence and fail to punish incoherent elements in system
outputs. In this work, we introduce DiscoScore, a discourse metric with
multiple variants, which uses BERT to model discourse coherence from different
perspectives, driven by Centering theory. Our experiments encompass 16
non-discourse and discourse metrics, including DiscoScore and popular coherence
models, evaluated on summarization and document-level machine translation (MT).
We find that (i) the majority of BERT-based metrics correlate much worse with
human rated coherence than early discourse metrics, invented a decade ago; (ii)
the recent state-of-the-art BARTScore is weak when operated at system level --
which is particularly problematic as systems are typically compared in this
manner. DiscoScore, in contrast, achieves strong system-level correlation with
human ratings, not only in coherence but also in factual consistency and other
aspects, and surpasses BARTScore by over 10 correlation points on average.
Further, aiming to understand DiscoScore, we provide justifications to the
importance of discourse coherence for evaluation metrics, and explain the
superiority of one variant over another. Our code is available at
\url{https://github.com/AIPHES/DiscoScore}.
- Abstract(参考訳): 近年、文間の相互依存のモデル化など、談話のコヒーレンスの観点から、テキスト生成システムの作成への関心が高まっている。
それでも、最近のBERTベースの評価指標では、コヒーレンスを認識することができず、システム出力の非コヒーレントな要素を罰することができない。
本研究では,多変量を持つ談話距離であるdiscoscoreを導入する。bert を用いて,論点中心理論に依拠して,異なる視点から談話コヒーレンスをモデル化する。
本実験は,要約と文書レベルの機械翻訳(MT)に基づいて評価されたディスコスコアや一般的なコヒーレンスモデルを含む16の非談話・談話指標を含む。
私たちはそれを見つけ
(i)10年前に考案された,BERTベースの指標の大部分は,初期の談話基準よりも人間のレーティング・コヒーレンスと相関する。
(II)最近の最先端のBARTScoreは、システムレベルでの運用では弱い - この種のシステムと比較される場合、特に問題となる。
対照的にDiscoScoreは、コヒーレンスだけでなく、現実の一貫性やその他の面において、人間の評価と強いシステムレベルの相関を達成し、BARTScoreを平均10以上の相関点で上回っている。
さらに,ディスコスコアの理解を目指して,評価指標における談話コヒーレンスの重要性を正当化し,一方の変種が他方よりも優れていることを説明する。
私たちのコードは \url{https://github.com/AIPHES/DiscoScore} で利用可能です。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5428962271088]
本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。
実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-25T06:08:16Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - QRelScore: Better Evaluating Generated Questions with Deeper
Understanding of Context-aware Relevance [54.48031346496593]
我々は、$underlinetextbfRel$evance評価指標のコンテキスト対応評価指標である$textbfQRelScore$を提案する。
BERTやGPT2のような既製の言語モデルに基づいて、QRelScoreは単語レベルの階層マッチングと文レベルのプロンプトベースの生成の両方を採用している。
既存の測定値と比較すると、QRelScoreは人間による判断と高い相関性を持ちながら、敵のサンプルに対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2022-04-29T07:39:53Z) - EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained
Embedding Matching [90.98122161162644]
現在のビデオキャプションの指標は、主に参照キャプションと候補キャプションのテキストレベルの比較に基づいている。
EMScore(Embedding Matching-based score)を提案する。
我々は、よく訓練された視覚言語モデルを用いて、EMScore 計算のための視覚的および言語的埋め込みを抽出する。
論文 参考訳(メタデータ) (2021-11-17T06:02:43Z) - Global Explainability of BERT-Based Evaluation Metrics by Disentangling
along Linguistic Factors [14.238125731862658]
我々は意味論、構文学、形態学、語彙的重複を含む言語的要因に沿ってメートル法スコアをアンタングルする。
異なるメトリクスがすべての側面をある程度捉えていることを示すが、これらはすべてBLEUやROUGEと同じように、語彙重なりにかなり敏感である。
論文 参考訳(メタデータ) (2021-10-08T22:40:33Z) - BARTScore: Evaluating Generated Text as Text Generation [89.50052670307434]
我々は、事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化されたテキスト生成問題として、生成されたテキストの評価を概念化する。
我々は、エンコーダ-デコーダベースの事前学習モデルであるBARTを用いて、このアイデアを運用する。
本稿では,様々な視点からテキストの評価に柔軟に適用可能な,数多くの変種を持つメトリクスBARTScoreを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。