論文の概要: A Joint Learning Approach based on Self-Distillation for Keyphrase
Extraction from Scientific Documents
- arxiv url: http://arxiv.org/abs/2010.11980v1
- Date: Thu, 22 Oct 2020 18:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:11:46.583248
- Title: A Joint Learning Approach based on Self-Distillation for Keyphrase
Extraction from Scientific Documents
- Title(参考訳): 科学文書からのキーフレーズ抽出のための自己蒸留に基づく共同学習手法
- Authors: Tuan Manh Lai, Trung Bui, Doo Soon Kim, Quan Hung Tran
- Abstract要約: キーフレーズ抽出(英: Keyphrase extract)は、文書を最もよく記述するフレーズの小さなセットを抽出するタスクである。
タスクの既存のベンチマークデータセットは、通常、注釈付きドキュメントの数に制限がある。
本稿では, 自己蒸留の考え方に基づく, シンプルで効率的な共同学習手法を提案する。
- 参考スコア(独自算出の注目度): 29.479331909227998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyphrase extraction is the task of extracting a small set of phrases that
best describe a document. Most existing benchmark datasets for the task
typically have limited numbers of annotated documents, making it challenging to
train increasingly complex neural networks. In contrast, digital libraries
store millions of scientific articles online, covering a wide range of topics.
While a significant portion of these articles contain keyphrases provided by
their authors, most other articles lack such kind of annotations. Therefore, to
effectively utilize these large amounts of unlabeled articles, we propose a
simple and efficient joint learning approach based on the idea of
self-distillation. Experimental results show that our approach consistently
improves the performance of baseline models for keyphrase extraction.
Furthermore, our best models outperform previous methods for the task,
achieving new state-of-the-art results on two public benchmarks: Inspec and
SemEval-2017.
- Abstract(参考訳): キーフレーズ抽出(英: Keyphrase extract)は、文書を最もよく記述するフレーズの小さなセットを抽出するタスクである。
このタスクの既存のベンチマークデータセットの多くは、注釈付きドキュメントの数が少ないため、複雑なニューラルネットワークのトレーニングが難しくなっている。
対照的に、デジタル図書館は何百万もの科学論文をオンラインで保存し、幅広いトピックをカバーしている。
これらの記事の大部分は、著者によって提供されるキーフレーズを含んでいるが、他のほとんどの記事にはそのようなアノテーションがない。
そこで,このような大量のラベルのない論文を効果的に活用するために,自己蒸留の考え方に基づいた簡便で効率的な共同学習手法を提案する。
実験の結果,提案手法はキーフレーズ抽出のためのベースラインモデルの性能を一貫して改善することが示された。
さらに,我々の最良モデルは,InspecとSemEval-2017の2つの公開ベンチマークにおいて,従来の手法よりも優れた結果を得た。
関連論文リスト
- Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Applying Transformer-based Text Summarization for Keyphrase Generation [2.28438857884398]
キーフレーズは学術文書の検索と体系化に不可欠である。
本稿では,抽象的なテキスト要約のためのトランスフォーマーモデルについて実験する。
要約モデルはフルマッチのF1スコアとBERTスコアでキーフレーズを生成するのに非常に効果的であることを示す。
また,キーフレーズをターゲットとした順序付け戦略についても検討する。
論文 参考訳(メタデータ) (2022-09-08T13:01:52Z) - Keyphrase Generation Beyond the Boundaries of Title and Abstract [28.56508031460787]
キーワード生成は、与えられた文書を最もよく記述するフレーズ(キーワード)を生成することを目的としている。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを考察する。
特に記事の要約形式で全文から文を追加することは、両方のキーフレーズの生成を著しく改善することを発見した。
論文 参考訳(メタデータ) (2021-12-13T16:33:01Z) - Multi-Document Keyphrase Extraction: A Literature Review and the First
Dataset [24.91326715164367]
文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。
ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
論文 参考訳(メタデータ) (2021-10-03T19:10:28Z) - MatchVIE: Exploiting Match Relevancy between Entities for Visual
Information Extraction [48.55908127994688]
我々は、VIE(MatchVIE)のためのグラフニューラルネットワークに基づく新しいキー値マッチングモデルを提案する。
関連性評価に基づくキー値マッチングにより、提案したMatchVIEは、認識を様々な意味論にバイパスすることができる。
我々は、エンコードされた値の不安定性に対処するために、単純だが効果的な操作であるNum2Vecを導入する。
論文 参考訳(メタデータ) (2021-06-24T12:06:29Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Select, Extract and Generate: Neural Keyphrase Generation with
Layer-wise Coverage Attention [75.44523978180317]
本稿では,2つの主要成分からなるニューラルキーフレーズ生成モデルであるemphSEG-Netを提案する。
科学的およびWeb文書から得られた7つのキーフレーズ生成ベンチマークの実験結果は、SEG-Netが最先端のニューラル生成手法よりも大きなマージンで優れていることを示している。
論文 参考訳(メタデータ) (2020-08-04T18:00:07Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。