論文の概要: Evaluating the Homogeneity of Keyphrase Prediction Models
- arxiv url: http://arxiv.org/abs/2602.12989v1
- Date: Fri, 13 Feb 2026 15:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.997396
- Title: Evaluating the Homogeneity of Keyphrase Prediction Models
- Title(参考訳): キーワード予測モデルの均一性の評価
- Authors: Maël Houbre, Florian Boudin, Beatrice Daille,
- Abstract要約: いくつかのNLPおよびIRアプリケーションで有用なキーワードは、テキストから抽出されるか、生成モデルによって予測される。
キーフレーズ生成モデルは、文書のテキストに現れないキーフレーズを予測することができる。
キーフレーズ抽出法は, 生成モデルと競合し, 欠失キーフレーズの生成能力は, 相同性に負の影響を及ぼす可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.003135699842281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyphrases which are useful in several NLP and IR applications are either extracted from text or predicted by generative models. Contrarily to keyphrase extraction approaches, keyphrase generation models can predict keyphrases that do not appear in a document's text called `absent keyphrases`. This ability means that keyphrase generation models can associate a document to a notion that is not explicitly mentioned in its text. Intuitively, this suggests that for two documents treating the same subjects, a keyphrase generation model is more likely to be homogeneous in their indexing i.e. predict the same keyphrase for both documents, regardless of those keyphrases appearing in their respective text or not; something a keyphrase extraction model would fail to do. Yet, homogeneity of keyphrase prediction models is not covered by current benchmarks. In this work, we introduce a method to evaluate the homogeneity of keyphrase prediction models and study if absent keyphrase generation capabilities actually help the model to be more homogeneous. To our surprise, we show that keyphrase extraction methods are competitive with generative models, and that the ability to generate absent keyphrases can actually have a negative impact on homogeneity. Our data, code and prompts are available on huggingface and github.
- Abstract(参考訳): いくつかのNLPおよびIRアプリケーションで有用なキーワードは、テキストから抽出されるか、生成モデルによって予測される。
キーフレーズ抽出アプローチと対照的に、キーフレーズ生成モデルは、‘absent keyphrases’と呼ばれる文書のテキストに現れないキーフレーズを予測することができる。
この能力は、キーフレーズ生成モデルが文書をテキストで明示的に言及されていない概念に関連付けることができることを意味する。
直感的には、同じ主題を扱う2つの文書において、キーフレーズ生成モデルはインデックス化において、例えば、それぞれのテキストに現れるキーフレーズによらず、両方の文書に対して同じキーフレーズを予測している。
しかし、キーフレーズ予測モデルの均一性は、現在のベンチマークではカバーされていない。
本研究では,キーフリーゼ予測モデルの均一性を評価する手法を導入し,キーフリーゼ生成能力の欠如がモデルをより均一にすることに役立つかどうかを検討する。
意外なことに、キーフレーズ抽出法は生成モデルと競合し、欠失キーフレーズを生成する能力は、実際には均質性に悪影響を及ぼす可能性がある。
私たちのデータ、コード、プロンプトは、Huggingfaceとgithubで利用可能です。
関連論文リスト
- Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Neural Keyphrase Generation: Analysis and Evaluation [47.004575377472285]
本稿では,T5(事前学習型トランスフォーマー),CatSeq-Transformer(非事前学習型トランスフォーマー),ExHiRD(リカレントニューラルネットワーク)の3つの強力なモデルで示される傾向について検討する。
2つのキーフレーズの類似性を評価するために,SoftKeyScoreという新しいメトリクスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-27T00:10:21Z) - Applying Transformer-based Text Summarization for Keyphrase Generation [2.28438857884398]
キーフレーズは学術文書の検索と体系化に不可欠である。
本稿では,抽象的なテキスト要約のためのトランスフォーマーモデルについて実験する。
要約モデルはフルマッチのF1スコアとBERTスコアでキーフレーズを生成するのに非常に効果的であることを示す。
また,キーフレーズをターゲットとした順序付け戦略についても検討する。
論文 参考訳(メタデータ) (2022-09-08T13:01:52Z) - Heterogeneous Graph Neural Networks for Keyphrase Generation [13.841525616800908]
本稿では,関連する参照から明示的な知識を抽出するグラフベースの新しい手法を提案する。
我々のモデルはまず、あらかじめ定義されたインデックスから、ソースドキュメントに似た文書とキーワードのペアを参照として検索する。
復号処理を導くために、ソース文書と参照の両方から適切な単語を直接コピーする階層的注目・複写機構を導入する。
論文 参考訳(メタデータ) (2021-09-10T07:17:07Z) - Unsupervised Deep Keyphrase Generation [14.544869226959612]
keyphrase生成は、長い文書を敬語句のコレクションにまとめることを目的としている。
ディープニューラルモデルは、このタスクにおいて顕著な成功を示し、文書から欠落するキーフレーズを予測することができる。
キーフレーズ生成のための新しい手法であるAutoKeyGenについて,人間のアノテーションを介さずに提示する。
論文 参考訳(メタデータ) (2021-04-18T05:53:19Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。