論文の概要: Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation
- arxiv url: http://arxiv.org/abs/2303.03608v1
- Date: Tue, 7 Mar 2023 02:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 16:46:12.048263
- Title: Towards Interpretable and Efficient Automatic Reference-Based
Summarization Evaluation
- Title(参考訳): 自動参照ベース要約評価の解釈と効率化に向けて
- Authors: Yixin Liu, Alexander R. Fabbri, Yilun Zhao, Pengfei Liu, Shafiq Joty,
Chien-Sheng Wu, Caiming Xiong, Dragomir Radev
- Abstract要約: 解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
本研究では,2段階評価パイプラインに基づく参照ベース要約評価のための高性能自動メトリクスを開発する。
私たちが開発したメトリクスには、きめ細かいユニットレベルと要約レベルの両方で高い解釈性を提供する2段階のメトリクスと、効率性と相互運用性のバランスを達成する1段階のメトリクスが含まれています。
- 参考スコア(独自算出の注目度): 147.97829666947433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability and efficiency are two important considerations for the
adoption of neural automatic metrics. In this work, we develop
strong-performing automatic metrics for reference-based summarization
evaluation, based on a two-stage evaluation pipeline that first extracts basic
information units from one text sequence and then checks the extracted units in
another sequence. The metrics we developed include two-stage metrics that can
provide high interpretability at both the fine-grained unit level and summary
level, and one-stage metrics that achieve a balance between efficiency and
interoperability. We make the developed tools publicly available through a
Python package and GitHub.
- Abstract(参考訳): 解釈可能性と効率性は、ニューラル自動メトリクスを採用する上で重要な2つの考慮事項である。
本研究では,まず1つのテキストシーケンスから基本情報単位を抽出し,抽出した単位を別のシーケンスで確認する2段階評価パイプラインに基づいて,参照ベース要約評価のための高性能自動メトリクスを開発する。
私たちが開発したメトリクスには、きめ細かい単位レベルとサマリーレベルの両方で高い解釈性を提供する2段階のメトリクスと、効率と相互運用性のバランスを達成する1段階のメトリクスが含まれています。
開発したツールはpythonパッケージとgithubを通じて公開しています。
関連論文リスト
- Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Finding a Balanced Degree of Automation for Summary Evaluation [83.08810773093882]
本稿では,フレキシブル・セミオートマチック・自動要約評価指標を提案する。
半自動 Lite2Pyramid は参照のための再利用可能な人間ラベル付き概要コンテンツユニット(SCU)を保持する
完全自動Lite3Pyramidは、自動的に抽出されたセマンティックトリプルトユニット(STU)をSCUに置き換える
論文 参考訳(メタデータ) (2021-09-23T17:12:35Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。