論文の概要: KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation
- arxiv url: http://arxiv.org/abs/2303.15422v4
- Date: Tue, 4 Jun 2024 10:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 14:46:07.955719
- Title: KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation
- Title(参考訳): KPEval: 微粒化セマンティックなキーワード評価を目指して
- Authors: Di Wu, Da Yin, Kai-Wei Chang,
- Abstract要約: KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
- 参考スコア(独自算出の注目度): 69.57018875757622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the significant advancements in keyphrase extraction and keyphrase generation methods, the predominant approach for evaluation mainly relies on exact matching with human references. This scheme fails to recognize systems that generate keyphrases semantically equivalent to the references or diverse keyphrases that carry practical utility. To better assess the capability of keyphrase systems, we propose KPEval, a comprehensive evaluation framework consisting of four critical aspects: reference agreement, faithfulness, diversity, and utility. For each aspect, we design semantic-based metrics to reflect the evaluation objectives. Meta-evaluation studies demonstrate that our evaluation strategy correlates better with human preferences compared to a range of previously proposed metrics. Using KPEval, we re-evaluate 23 keyphrase systems and discover that (1) established model comparison results have blind-spots especially when considering reference-free evaluation; (2) large language models are underestimated by prior evaluation works; and (3) there is no single best model that can excel in all the aspects.
- Abstract(参考訳): キーフレーズ抽出法やキーフレーズ生成法が著しく進歩しているにもかかわらず、評価のための主要なアプローチは主に人間の参照との正確なマッチングに依存している。
このスキームは、実用性を持つ参照や多様なキーフレーズと意味的に等価なキーフレーズを生成するシステムを認識するのに失敗する。
KPEvalは,キーフレーズシステムの性能をよりよく評価するために,参照合意,忠実性,多様性,有用性という4つの重要な側面からなる総合的な評価フレームワークである。
それぞれの側面に対して,評価対象を反映した意味に基づくメトリクスを設計する。
メタ評価研究により, 評価戦略は, 従来提案されていた指標と比較すると, 人間の嗜好と相関することが明らかとなった。
KPEvalを用いて、23のキーフレーズシステムを再評価し、(1)参照なし評価を考慮した場合、確立されたモデル比較結果が盲点であること、(2)大規模言語モデルが事前評価作業によって過小評価されていること、(3)全ての面において優れた最良のモデルが存在しないことを明らかにする。
関連論文リスト
- Evaluating Step-by-step Reasoning Traces: A Survey [3.895864050325129]
評価基準を4つのトップレベルカテゴリ(基底性、妥当性、コヒーレンス、有用性)で分類することを提案する。
次に、それらの実装に基づいてメトリクスを分類し、それぞれの基準を評価するために使用されるメトリクスを調査し、評価モデルが異なる基準をまたいで転送できるかどうかを調査する。
論文 参考訳(メタデータ) (2025-02-17T19:58:31Z) - MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Do You Hear The People Sing? Key Point Analysis via Iterative Clustering
and Abstractive Summarisation [12.548947151123555]
議論の要約は有望だが、現在未調査の分野である。
キーポイント分析の主な課題の1つは、高品質なキーポイント候補を見つけることである。
キーポイントの評価は 自動的に生成された要約が 役に立つことを保証するのに 不可欠です
論文 参考訳(メタデータ) (2023-05-25T12:43:29Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Keyphrase Generation with Fine-Grained Evaluation-Guided Reinforcement
Learning [30.09715149060206]
キーフレーズ生成(KG)は、ある文書から中心的なアイデアを取得するための古典的なタスクである。
本稿では,異なる粒度を考慮した新しい粒度評価指標を提案する。
より不規則な言語パターンを学習するために、予測キーフレーズとターゲットキーフレーズの連続的な類似度スコアを計算するために、事前訓練されたモデル(例えばBERT)を用いる。
論文 参考訳(メタデータ) (2021-04-18T10:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。