論文の概要: PatternRank: Leveraging Pretrained Language Models and Part of Speech
for Unsupervised Keyphrase Extraction
- arxiv url: http://arxiv.org/abs/2210.05245v1
- Date: Tue, 11 Oct 2022 08:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 13:51:10.862848
- Title: PatternRank: Leveraging Pretrained Language Models and Part of Speech
for Unsupervised Keyphrase Extraction
- Title(参考訳): PatternRank: 事前学習言語モデルの活用と教師なしキーフレーズ抽出のための音声の一部
- Authors: Tim Schopf, Simon Klimek, Florian Matthes
- Abstract要約: 本稿では,1つの文書から教師なしキーフレーズを抽出するために,事前訓練された言語モデルとパート・オブ・音声を提供するPatternRankを提案する。
実験の結果,PatternRankは従来の最先端手法よりも高精度,リコール,F1スコアを実現していることがわかった。
- 参考スコア(独自算出の注目度): 0.6767885381740952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyphrase extraction is the process of automatically selecting a small set of
most relevant phrases from a given text. Supervised keyphrase extraction
approaches need large amounts of labeled training data and perform poorly
outside the domain of the training data (Bennani-Smires et al., 2018). In this
paper, we present PatternRank, which leverages pretrained language models and
part-of-speech for unsupervised keyphrase extraction from single documents. Our
experiments show PatternRank achieves higher precision, recall and F1 -scores
than previous state-of-the-art approaches. In addition, we present the
KeyphraseVectorizers package, which allows easy modification of part-of-speech
patterns for candidate keyphrase selection, and hence adaptation of our
approach to any domain.
- Abstract(参考訳): キーワード抽出は、与えられたテキストから最も関連性の高いフレーズの小さなセットを自動的に選択するプロセスである。
改良されたキーフレーズ抽出アプローチは、大量のラベル付きトレーニングデータを必要とし、トレーニングデータの領域外では性能が良くない(Bennani-Smires et al., 2018)。
本稿では,事前学習された言語モデルと単一文書からの教師なしキーフレーズ抽出のためのpart-of-speechを用いたパターンランクを提案する。
実験の結果,PatternRankは従来の最先端手法よりも高精度,リコール,F1スコアを実現していることがわかった。
さらに,提案するKeyphraseVectorizersパッケージは,候補となるキーフレーズの選択のための音声パターンの変更を容易にし,任意のドメインへのアプローチの適応を可能にする。
関連論文リスト
- Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Large Language Models as Zero-Shot Keyphrase Extractors: A Preliminary
Empirical Study [27.139631284101007]
Zero-shot Keyphrase extractは、人間の注釈付きデータによるトレーニングなしでキーフレーズ抽出装置を構築することを目的としている。
事前訓練された大規模言語モデルに対する最近の取り組みは、ゼロショット設定における有望な性能を示している。
論文 参考訳(メタデータ) (2023-12-23T03:50:49Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Learning Rich Representation of Keyphrases from Text [12.698835743464313]
テキスト文書からキーフレーズの表現を豊かに学習することを目的としたタスク固有言語モデルの学習方法を示す。
差別的設定では、新しい事前学習目標である、KBIR(Keyphrase boundary Infilling with Replacement)を導入する。
生成設定では、入力テキストに関連するキーフレーズをCatSeqフォーマットで再現する、BART-KeyBARTの新しい事前学習設定を導入する。
論文 参考訳(メタデータ) (2021-12-16T01:09:51Z) - Template Controllable keywords-to-text Generation [16.255080737147384]
このモデルは、順序のないキーワードのセットと、POS(Part-of-speech)ベースのテンプレート命令を入力として取ります。
このフレームワークはEncode-attend-decodeパラダイムに基づいており、まずキーワードとテンプレートをエンコードし、デコーダはエンコードされたキーワードとテンプレートから派生したコンテキストを巧みに参加して文を生成する。
論文 参考訳(メタデータ) (2020-11-07T08:05:58Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - Keyphrase Prediction With Pre-trained Language Model [16.06425973336514]
我々は,キーフレーズ予測を2つのサブタスク,すなわち,現在キーフレーズ抽出(PKE)と欠キーフレーズ生成(AKG)に分割することを提案する。
PKEでは、事前訓練された言語モデルBERTを用いて、このタスクをシーケンスラベリング問題として扱う。
AKG では,PKE から学んだキーフレーズの知識を細調整した BERT で完全に統合した Transformer ベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-22T09:35:02Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。