論文の概要: DocAsRef: A Pilot Empirical Study on Repurposing Reference-Based Summary
Quality Metrics Reference-Freely
- arxiv url: http://arxiv.org/abs/2212.10013v1
- Date: Tue, 20 Dec 2022 06:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:52:38.591743
- Title: DocAsRef: A Pilot Empirical Study on Repurposing Reference-Based Summary
Quality Metrics Reference-Freely
- Title(参考訳): DocAsRef: 基準ベース概要品質基準をフリーで再利用する実証的研究
- Authors: Forrest Sheng Bao, Ruixuan Tu, Ge Luo
- Abstract要約: 参照ベースのメトリクスは理論的にはより正確であるが、人間による参照の可用性と品質によって制限される。
既存の参照なしのメトリクスはゼロショットと正確さの両方ではあり得ない。
本稿では,参照ベースメトリクスへの参照として,どの要約を生成するかに基づいて文書を送付する,ゼロショットだが正確な参照フリーな手法を提案する。
- 参考スコア(独自算出の注目度): 1.2957200970076836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summary quality assessment metrics have two categories: reference-based and
reference-free. Reference-based metrics are theoretically more accurate but are
limited by the availability and quality of the human-written references, which
are both difficulty to ensure. This inspires the development of reference-free
metrics, which are independent from human-written references, in the past few
years. However, existing reference-free metrics cannot be both zero-shot and
accurate. In this paper, we propose a zero-shot but accurate reference-free
approach in a sneaky way: feeding documents, based upon which summaries
generated, as references into reference-based metrics. Experimental results
show that this zero-shot approach can give us the best-performing
reference-free metrics on nearly all aspects on several recently-released
datasets, even beating reference-free metrics specifically trained for this
task sometimes. We further investigate what reference-based metrics can benefit
from such repurposing and whether our additional tweaks help.
- Abstract(参考訳): 要約品質評価指標には、参照ベースと参照フリーの2つのカテゴリがある。
参照ベースのメトリクスは理論的にはより正確であるが、人間による参照の可用性と品質によって制限されている。
これは、過去数年間に人間が書いた参照から独立した参照フリーメトリクスの開発を刺激する。
しかし、既存の参照なしのメトリクスはゼロショットでも正確でもない。
本稿では,ゼロショットだが正確な参照不要な手法として,参照ベースメトリクスへの参照として,どの要約を生成するかに基づいて文書を送付する手法を提案する。
実験の結果、このゼロショットアプローチによって、最近リリースされたいくつかのデータセットのほぼすべての側面において、最もパフォーマンスの高い参照フリーメトリクスが得られます。
参照ベースのメトリクスがこのようなリパースによってどのような恩恵を受けることができるのか、追加の調整が役立つのか、さらに検討する。
関連論文リスト
- Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics [4.881135687863645]
我々は,人間の評価値とよく相関する基準のないメトリクスを導入し,計算が極めて安価である。
また,低品質の参照設定におけるロバスト性を改善するために,基準ベースのメトリクスと併用することも示している。
論文 参考訳(メタデータ) (2024-10-08T11:09:25Z) - RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文 参考訳(メタデータ) (2024-10-07T16:50:47Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Spurious Correlations in Reference-Free Evaluation of Text Generation [35.80256755393739]
本研究では,要約とダイアログ生成の基準フリー評価指標が,単語重複,パープレキシティ,長さなどの指標と急激な相関に依拠していることを示す。
評価指標を明示的に設計し,参照不要な評価の急激な特徴を避けることで,これらの誤差を軽減できることを実証する。
論文 参考訳(メタデータ) (2022-04-21T05:32:38Z) - WIDAR -- Weighted Input Document Augmented ROUGE [26.123086537577155]
提案する指標WIDARは,基準要約の品質に応じて評価スコアを適応させるように設計されている。
提案指標は, 整合性, 整合性, 流速性, 人的判断の関連性において, ROUGEよりも26%, 76%, 82%, 15%の相関関係を示した。
論文 参考訳(メタデータ) (2022-01-23T14:40:42Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。