論文の概要: BARTScore: Evaluating Generated Text as Text Generation
- arxiv url: http://arxiv.org/abs/2106.11520v1
- Date: Tue, 22 Jun 2021 03:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 01:07:00.067549
- Title: BARTScore: Evaluating Generated Text as Text Generation
- Title(参考訳): bartscore: 生成テキストをテキスト生成として評価する
- Authors: Weizhe Yuan and Graham Neubig and Pengfei Liu
- Abstract要約: 我々は、事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化されたテキスト生成問題として、生成されたテキストの評価を概念化する。
我々は、エンコーダ-デコーダベースの事前学習モデルであるBARTを用いて、このアイデアを運用する。
本稿では,様々な視点からテキストの評価に柔軟に適用可能な,数多くの変種を持つメトリクスBARTScoreを提案する。
- 参考スコア(独自算出の注目度): 89.50052670307434
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A wide variety of NLP applications, such as machine translation,
summarization, and dialog, involve text generation. One major challenge for
these applications is how to evaluate whether such generated texts are actually
fluent, accurate, or effective. In this work, we conceptualize the evaluation
of generated text as a text generation problem, modeled using pre-trained
sequence-to-sequence models. The general idea is that models trained to convert
the generated text to/from a reference output or the source text will achieve
higher scores when the generated text is better. We operationalize this idea
using BART, an encoder-decoder based pre-trained model, and propose a metric
BARTScore with a number of variants that can be flexibly applied in an
unsupervised fashion to evaluation of text from different perspectives (e.g.
informativeness, fluency, or factuality). BARTScore is conceptually simple and
empirically effective. It can outperform existing top-scoring metrics in 16 of
22 test settings, covering evaluation of 16 datasets (e.g., machine
translation, text summarization) and 7 different perspectives (e.g.,
informativeness, factuality). Code to calculate BARTScore is available at
https://github.com/neulab/BARTScore, and we have released an interactive
leaderboard for meta-evaluation at
http://explainaboard.nlpedia.ai/leaderboard/task-meval/ on the ExplainaBoard
platform, which allows us to interactively understand the strengths,
weaknesses, and complementarity of each metric.
- Abstract(参考訳): 機械翻訳、要約、ダイアログなどの幅広いNLPアプリケーションには、テキスト生成が含まれる。
これらのアプリケーションの大きな課題のひとつは、このような生成されたテキストが実際に流動的、正確、有効かどうかを評価する方法である。
本研究では,テキスト生成問題として生成したテキストの評価を,事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化する。
一般的な考え方は、生成したテキストを参照出力またはソーステキストに変換するように訓練されたモデルは、生成したテキストが良い場合により高いスコアを得る。
我々は、エンコーダ-デコーダベースの事前訓練モデルであるBARTを用いて、このアイデアを運用し、異なる視点(例えば、異なる視点からテキストを評価するために、教師なしの方法で柔軟に適用できる多くの変種を持つメトリクスBARTScoreを提案する。
情報、流布、または事実)
BARTScoreは概念的にはシンプルで、経験的に有効です。
既存のトップスコアの指標を22のテスト設定中16で上回り、16のデータセット(例えば、機械翻訳、テキスト要約)と7つの異なる視点(例えば、情報性、事実性)の評価をカバーできる。
BARTScoreの計算コードはhttps://github.com/neulab/BARTScoreで利用可能で、http://explainaboard.nlpedia.ai/ Leaderboard/task-meval/でメタ評価のためのインタラクティブなリーダーボードをExplainaBoardプラットフォームでリリースしました。
関連論文リスト
- CEval: A Benchmark for Evaluating Counterfactual Text Generation [2.899704155417792]
本稿では,テキスト生成手法の比較のためのベンチマークであるCEvalを提案する。
我々の実験では、偽造テキストを生成するための完璧な方法が見つからなかった。
CEvalをオープンソースのPythonライブラリとして利用できるようにすることで、コミュニティはより多くのメソッドをコントリビュートすることを推奨しています。
論文 参考訳(メタデータ) (2024-04-26T15:23:47Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence [30.10146423935216]
本稿では,異なる視点から対話コヒーレンスをモデル化するためにBERTを用いた談話計量であるDiscoScoreを紹介する。
実験は、DiscoScoreや一般的なコヒーレンスモデルを含む16の非談話および談話メトリクスを含む。
論文 参考訳(メタデータ) (2022-01-26T20:28:26Z) - Automatic Text Evaluation through the Lens of Wasserstein Barycenters [24.71226781348407]
文脈の深い埋め込みに基づくテキスト生成を評価するために,新しい計量式texttBaryScore が導入された。
以上の結果から, texttBaryScore は他のBERT ベースの指標よりも優れており,特にテキスト要約において一貫した振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2021-08-27T19:08:52Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。