論文の概要: KPEval: Towards Fine-grained Semantic-based Evaluation of Keyphrase
Extraction and Generation Systems
- arxiv url: http://arxiv.org/abs/2303.15422v1
- Date: Mon, 27 Mar 2023 17:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:09:56.653668
- Title: KPEval: Towards Fine-grained Semantic-based Evaluation of Keyphrase
Extraction and Generation Systems
- Title(参考訳): KPEval: キーワード抽出・生成システムのきめ細かいセマンティック評価を目指して
- Authors: Di Wu, Da Yin, Kai-Wei Chang
- Abstract要約: 本研究では,自然性,忠実性,主観性,包括性,多様性,実用性の6つの重要な側面からなる包括的評価枠組みを提案する。
厳密なメタ評価研究は、我々の評価戦略が、以前使用されていた指標よりも人間の嗜好とよく相関していることを示している。
- 参考スコア(独自算出の注目度): 75.41026880574168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the significant advancements in keyphrase extraction and keyphrase
generation methods, the predominant approach for evaluation only relies on
exact matching with human references and disregards reference-free attributes.
This scheme fails to recognize systems that generate keyphrases that are
semantically equivalent to the references or keyphrases that have practical
utility. To better understand the strengths and weaknesses of different
keyphrase systems, we propose a comprehensive evaluation framework consisting
of six critical dimensions: naturalness, faithfulness, saliency, coverage,
diversity, and utility. For each dimension, we discuss the desiderata and
design semantic-based metrics that align with the evaluation objectives.
Rigorous meta-evaluation studies demonstrate that our evaluation strategy
correlates better with human preferences compared to a range of previously used
metrics. Using this framework, we re-evaluate 18 keyphrase systems and further
discover that (1) the best model differs in different dimensions, with
pre-trained language models achieving the best in most dimensions; (2) the
utility in downstream tasks does not always correlate well with reference-based
metrics; and (3) large language models exhibit a strong performance in
reference-free evaluation.
- Abstract(参考訳): キーフレーズ抽出法やキーフレーズ生成法の進歩にもかかわらず、評価のための主要なアプローチは、人間の参照との正確なマッチングと参照なし属性の無視にのみ依存する。
このスキームは、実用性のある参照やキーフレーズと意味的に等価なキーフレーズを生成するシステムを認識するのに失敗する。
異なるキーフレーズシステムの強みと弱みをよりよく理解するために,我々は,自然性,忠実性,敬礼,範囲,多様性,実用性という6つの重要な次元からなる総合的な評価フレームワークを提案する。
それぞれの次元について,評価目的に合致したデシデラタとセマンティクスベースのメトリクスの設計について論じる。
厳密なメタ評価研究は、我々の評価戦略が、以前使用されていた指標よりも人間の嗜好と相関していることを示している。
この枠組みを用いて18個のキーフレーズシステムを再評価し,(1)事前学習した言語モデルが最良となる場合,(2)ダウンストリームタスクの実用性が基準ベースのメトリクスと常に相関するとは限らないこと,(3)大きな言語モデルが参照フリー評価において強力な性能を示すこと,の2つを見出した。
関連論文リスト
- MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - From Key Points to Key Point Hierarchy: Structured and Expressive
Opinion Summarization [9.567280503274226]
キーポイント分析(KPA)は、最近テキストコメントの集合からきめ細かい洞察を得るために提案されている。
与えられたキーポイントの集合を階層に整理するタスクを,その特異性に応じて導入する。
我々は、ビジネスおよび製品レビューのキーポイント階層の高品質なベンチマークデータセットであるThinkPを開発した。
論文 参考訳(メタデータ) (2023-06-06T16:45:44Z) - Do You Hear The People Sing? Key Point Analysis via Iterative Clustering
and Abstractive Summarisation [12.548947151123555]
議論の要約は有望だが、現在未調査の分野である。
キーポイント分析の主な課題の1つは、高品質なキーポイント候補を見つけることである。
キーポイントの評価は 自動的に生成された要約が 役に立つことを保証するのに 不可欠です
論文 参考訳(メタデータ) (2023-05-25T12:43:29Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Keyphrase Generation with Fine-Grained Evaluation-Guided Reinforcement
Learning [30.09715149060206]
キーフレーズ生成(KG)は、ある文書から中心的なアイデアを取得するための古典的なタスクである。
本稿では,異なる粒度を考慮した新しい粒度評価指標を提案する。
より不規則な言語パターンを学習するために、予測キーフレーズとターゲットキーフレーズの連続的な類似度スコアを計算するために、事前訓練されたモデル(例えばBERT)を用いる。
論文 参考訳(メタデータ) (2021-04-18T10:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。