論文の概要: An Analysis of Datasets, Metrics and Models in Keyphrase Generation
- arxiv url: http://arxiv.org/abs/2506.10346v1
- Date: Thu, 12 Jun 2025 04:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.575244
- Title: An Analysis of Datasets, Metrics and Models in Keyphrase Generation
- Title(参考訳): キーワード生成におけるデータセット, メトリクス, モデルの解析
- Authors: Florian Boudin, Akiko Aizawa,
- Abstract要約: キーワード生成(英: Keyphrase generation)とは、文書を要約する単語やフレーズの集合を生成するタスクである。
本稿では,キーフレーズ生成に関する50以上の研究論文の分析を行い,最近の進歩,限界,オープン課題について概観する。
- 参考スコア(独自算出の注目度): 33.04325179283727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyphrase generation refers to the task of producing a set of words or phrases that summarises the content of a document. Continuous efforts have been dedicated to this task over the past few years, spreading across multiple lines of research, such as model architectures, data resources, and use-case scenarios. Yet, the current state of keyphrase generation remains unknown as there has been no attempt to review and analyse previous work. In this paper, we bridge this gap by presenting an analysis of over 50 research papers on keyphrase generation, offering a comprehensive overview of recent progress, limitations, and open challenges. Our findings highlight several critical issues in current evaluation practices, such as the concerning similarity among commonly-used benchmark datasets and inconsistencies in metric calculations leading to overestimated performances. Additionally, we address the limited availability of pre-trained models by releasing a strong PLM-based model for keyphrase generation as an effort to facilitate future research.
- Abstract(参考訳): キーワード生成(英: Keyphrase generation)とは、文書の内容を要約する単語やフレーズの集合を生成するタスクである。
モデルアーキテクチャ、データリソース、ユースケースシナリオなど、さまざまな研究領域にまたがって、ここ数年にわたって、このタスクに継続的な取り組みが続けられてきた。
しかし、キーフレーズ生成の現在の状況は、以前の研究をレビューし分析する試みがないため、不明である。
本稿では,キーフレーズ生成に関する50以上の研究論文の分析を行い,最近の進歩,限界,オープン課題について概観する。
本研究は, 一般的なベンチマークデータセット間の類似性や, 過大評価性能に繋がる計量計算の不整合など, 現在の評価実践におけるいくつかの重要な問題点を浮き彫りにした。
さらに,キーフレーズ生成のための強力なPLMモデルをリリースすることによって,事前学習モデルの利用率の限界に対処する。
関連論文リスト
- ERU-KG: Efficient Reference-aligned Unsupervised Keyphrase Generation [21.10770048637475]
本稿では,教師なしキーフレーズ生成(UKG)モデルであるERU-KGを提案する。
ERU-KGは、教師なしベースラインを上回り、トップ10予測のための教師付きモデルの性能の89%を達成し、キーフレーズ生成ベンチマークの有効性を示す。
論文 参考訳(メタデータ) (2025-05-30T05:09:53Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Quantifying Contamination in Evaluating Code Generation Capabilities of
Language Models [27.24738197172374]
大規模言語モデルは、様々なコード生成ベンチマークで顕著なパフォーマンスを達成した。
これらのベンチマークが事前トレーニングや微調整のデータにリークされる可能性があるため、潜在的な汚染に関する懸念が高まっている。
我々は、人気のあるコード生成ベンチマークとオープントレーニングコーパスの間にかなりの重複があることを示し、トレーニング中に同様のソリューションが見られたベンチマークのサブセットにおいて、モデルの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-03-06T21:45:35Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - From Statistical Methods to Deep Learning, Automatic Keyphrase
Prediction: A Survey [44.83902003341381]
キーワード予測は、与えられた文書を高度に要約したフレーズ(キーワード)を生成することを目的としている。
近年,様々な観点から詳細な研究が行われている。
我々の研究は、これまでの167件の作業を分析し、このタスクを以前の調査よりより広範囲にカバーしています。
論文 参考訳(メタデータ) (2023-05-04T06:22:50Z) - Next-Year Bankruptcy Prediction from Textual Data: Benchmark and
Baselines [10.944533132358439]
倒産予測のモデルは、いくつかの現実世界のシナリオで有用である。
共通のベンチマークデータセットと評価戦略の欠如は、モデル間の客観的比較を妨げる。
本稿では、新しいデータセットと確立されたデータセットに基づいて、構造化されていないデータシナリオに対するそのようなベンチマークを紹介する。
論文 参考訳(メタデータ) (2022-08-24T07:11:49Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Keyphrase Generation for Scientific Document Retrieval [28.22174864849121]
本研究は,シーケンス・ツー・シーケンス・モデルが文書検索性能を大幅に向上できることを示す実証的証拠を提供する。
本稿では,キーフレーズ生成モデルの限界をよりよく理解することのできる,新たな外部評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-28T13:55:49Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。