論文の概要: Learning Rich Representation of Keyphrases from Text
- arxiv url: http://arxiv.org/abs/2112.08547v1
- Date: Thu, 16 Dec 2021 01:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 07:55:32.252206
- Title: Learning Rich Representation of Keyphrases from Text
- Title(参考訳): テキストからキーフレーズの豊かな表現を学ぶ
- Authors: Mayank Kulkarni, Debanjan Mahata, Ravneet Arora, Rajarshi Bhowmik
- Abstract要約: テキスト文書からキーフレーズの表現を豊かに学習することを目的としたタスク固有言語モデルの学習方法を示す。
差別的設定では、新しい事前学習目標である、KBIR(Keyphrase boundary Infilling with Replacement)を導入する。
生成設定では、入力テキストに関連するキーフレーズをCatSeqフォーマットで再現する、BART-KeyBARTの新しい事前学習設定を導入する。
- 参考スコア(独自算出の注目度): 12.698835743464313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore how to learn task-specific language models aimed
towards learning rich representation of keyphrases from text documents. We
experiment with different masking strategies for pre-training transformer
language models (LMs) in discriminative as well as generative settings. In the
discriminative setting, we introduce a new pre-training objective - Keyphrase
Boundary Infilling with Replacement (KBIR), showing large gains in performance
(upto 9.26 points in F1) over SOTA, when LM pre-trained using KBIR is
fine-tuned for the task of keyphrase extraction. In the generative setting, we
introduce a new pre-training setup for BART - KeyBART, that reproduces the
keyphrases related to the input text in the CatSeq format, instead of the
denoised original input. This also led to gains in performance (upto 4.33
points in F1@M) over SOTA for keyphrase generation. Additionally, we also
fine-tune the pre-trained language models on named entity recognition (NER),
question answering (QA), relation extraction (RE), abstractive summarization
and achieve comparable performance with that of the SOTA, showing that learning
rich representation of keyphrases is indeed beneficial for many other
fundamental NLP tasks.
- Abstract(参考訳): 本研究では,テキスト文書からキーフレーズの表現を豊かに学習することを目的としたタスク固有言語モデルの学習方法について検討する。
我々は,前訓練用トランスフォーマー言語モデル (lms) の識別的および生成的設定において,異なるマスキング戦略を実験する。
本稿では, KBIR を用いて事前学習した LM がキーフレーズ抽出のタスクのために微調整された場合, KBIR よりも高い性能 (F1 の 9.26 点まで) を示した。
生成設定では、bart - keybart の新たな事前学習設定を導入し、その初期入力の代わりに cateq 形式で入力テキストに関連するキーフレーズを再現する。
これにより、キーフレーズ生成のためのSOTAよりもパフォーマンス(F1@Mの4.33ポイントまで)が向上した。
さらに、名前付きエンティティ認識(NER)、質問応答(QA)、関係抽出(RE)、抽象的な要約、およびSOTAと同等の性能を持つ事前学習言語モデルを微調整し、キーフレーズの豊かな表現を学習することが、他の多くの基本的なNLPタスクにとって有益であることを示す。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - SimCKP: Simple Contrastive Learning of Keyphrase Representations [36.88517357720033]
そこで本論文では,(1)文脈認識型フレーズレベルの表現からキーフレーズを抽出する抽出器・ジェネレータと,(2)生成したフレーズのスコアを対応する文書と整列させることで,文書に現れないキーフレーズを生成するリランカと,の2つの段階からなる単純なコントラスト学習フレームワークであるSimCKPを提案する。
論文 参考訳(メタデータ) (2023-10-12T11:11:54Z) - Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T22:26:57Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - PatternRank: Leveraging Pretrained Language Models and Part of Speech
for Unsupervised Keyphrase Extraction [0.6767885381740952]
本稿では,1つの文書から教師なしキーフレーズを抽出するために,事前訓練された言語モデルとパート・オブ・音声を提供するPatternRankを提案する。
実験の結果,PatternRankは従来の最先端手法よりも高精度,リコール,F1スコアを実現していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T08:23:54Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Improving Joint Layer RNN based Keyphrase Extraction by Using
Syntactical Features [0.6724914680904501]
我々は,複数のキーワード列を抽出するために,JRNNの入力層を変更することを提案する。
精度は9597,F1は7691であった。
論文 参考訳(メタデータ) (2020-09-15T14:20:04Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Keyphrase Prediction With Pre-trained Language Model [16.06425973336514]
我々は,キーフレーズ予測を2つのサブタスク,すなわち,現在キーフレーズ抽出(PKE)と欠キーフレーズ生成(AKG)に分割することを提案する。
PKEでは、事前訓練された言語モデルBERTを用いて、このタスクをシーケンスラベリング問題として扱う。
AKG では,PKE から学んだキーフレーズの知識を細調整した BERT で完全に統合した Transformer ベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-22T09:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。