論文の概要: Improving Keyphrase Extraction with Data Augmentation and Information
Filtering
- arxiv url: http://arxiv.org/abs/2209.04951v1
- Date: Sun, 11 Sep 2022 22:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:03:09.583799
- Title: Improving Keyphrase Extraction with Data Augmentation and Information
Filtering
- Title(参考訳): データ拡張と情報フィルタリングによるキーフレーズ抽出の改善
- Authors: Amir Pouran Ben Veyseh, Nicole Meister, Franck Dernoncourt, Thien Huu
Nguyen
- Abstract要約: キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
- 参考スコア(独自算出の注目度): 67.43025048639333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyphrase extraction is one of the essential tasks for document understanding
in NLP. While the majority of the prior works are dedicated to the formal
setting, e.g., books, news or web-blogs, informal texts such as video
transcripts are less explored. To address this limitation, in this work we
present a novel corpus and method for keyphrase extraction from the transcripts
of the videos streamed on the Behance platform. More specifically, in this
work, a novel data augmentation is proposed to enrich the model with the
background knowledge about the keyphrase extraction task from other domains.
Extensive experiments on the proposed dataset dataset show the effectiveness of
the introduced method.
- Abstract(参考訳): キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
以前の作品のほとんどは、書籍、ニュース、ウェブブログなどの形式的な設定に特化しているが、ビデオの書き起こしのような非公式なテキストは調査されていない。
この制限に対処するため,本稿では,Behanceプラットフォーム上でストリームされたビデオの書き起こしからキーフレーズを抽出する新しいコーパスと手法を提案する。
より具体的には、他のドメインからのキーフレーズ抽出タスクに関する背景知識でモデルを強化するために、新しいデータ拡張を提案する。
提案データセットの大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- Data Augmentation for Low-Resource Keyphrase Generation [46.52115499306222]
キーフレーズ生成(英: Keyphrase generation)とは、任意の記事の内容をいくつかの有能なフレーズ(またはキーフレーズ)に要約するタスクである。
タスクの既存の作業は主に、取得が簡単ではない大規模なアノテートデータセットに依存しています。
我々は、純粋にリソース制約のあるドメインにおいて、キーフレーズの生成に対処するためのデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-05-29T09:20:34Z) - PatternRank: Leveraging Pretrained Language Models and Part of Speech
for Unsupervised Keyphrase Extraction [0.6767885381740952]
本稿では,1つの文書から教師なしキーフレーズを抽出するために,事前訓練された言語モデルとパート・オブ・音声を提供するPatternRankを提案する。
実験の結果,PatternRankは従来の最先端手法よりも高精度,リコール,F1スコアを実現していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T08:23:54Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Keyphrase Generation Beyond the Boundaries of Title and Abstract [28.56508031460787]
キーワード生成は、与えられた文書を最もよく記述するフレーズ(キーワード)を生成することを目的としている。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを考察する。
特に記事の要約形式で全文から文を追加することは、両方のキーフレーズの生成を著しく改善することを発見した。
論文 参考訳(メタデータ) (2021-12-13T16:33:01Z) - Enhancing Keyphrase Extraction from Academic Articles with their
Reference Information [12.769066804715697]
文書情報を高度に要約するキーワードは、ユーザが文書を素早く入手し、理解するのに役立ちます。
参照のタイトル情報は、著者が指定したキーフレーズも含んでいる。
実験により、参照情報は自動キーフレーズ抽出の精度、リコール、F1を高めることができる。
論文 参考訳(メタデータ) (2021-11-28T11:14:16Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - Multi-Document Keyphrase Extraction: A Literature Review and the First
Dataset [24.91326715164367]
文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。
ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
論文 参考訳(メタデータ) (2021-10-03T19:10:28Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z) - A Joint Learning Approach based on Self-Distillation for Keyphrase
Extraction from Scientific Documents [29.479331909227998]
キーフレーズ抽出(英: Keyphrase extract)は、文書を最もよく記述するフレーズの小さなセットを抽出するタスクである。
タスクの既存のベンチマークデータセットは、通常、注釈付きドキュメントの数に制限がある。
本稿では, 自己蒸留の考え方に基づく, シンプルで効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。