論文の概要: Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study
- arxiv url: http://arxiv.org/abs/2212.10233v2
- Date: Fri, 23 Feb 2024 04:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:46:04.872200
- Title: Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study
- Title(参考訳): キーワード生成のための事前学習型言語モデル:詳細な実証研究
- Authors: Di Wu, Wasi Uddin Ahmad, Kai-Wei Chang
- Abstract要約: 事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
- 参考スコア(独自算出の注目度): 76.52997424694767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural models that do not rely on pre-training have excelled in the keyphrase
generation task with large annotated datasets. Meanwhile, new approaches have
incorporated pre-trained language models (PLMs) for their data efficiency.
However, there lacks a systematic study of how the two types of approaches
compare and how different design choices can affect the performance of
PLM-based models. To fill in this knowledge gap and facilitate a more informed
use of PLMs for keyphrase extraction and keyphrase generation, we present an
in-depth empirical study. Formulating keyphrase extraction as sequence labeling
and keyphrase generation as sequence-to-sequence generation, we perform
extensive experiments in three domains. After showing that PLMs have
competitive high-resource performance and state-of-the-art low-resource
performance, we investigate important design choices including in-domain PLMs,
PLMs with different pre-training objectives, using PLMs with a parameter
budget, and different formulations for present keyphrases. Further results show
that (1) in-domain BERT-like PLMs can be used to build strong and
data-efficient keyphrase generation models; (2) with a fixed parameter budget,
prioritizing model depth over width and allocating more layers in the encoder
leads to better encoder-decoder models; and (3) introducing four in-domain
PLMs, we achieve a competitive performance in the news domain and the
state-of-the-art performance in the scientific domain.
- Abstract(参考訳): 事前トレーニングに依存しないニューラルモデルは、大きな注釈付きデータセットを持つkeyphrase生成タスクに優れている。
一方、新しいアプローチでは、データ効率のために事前学習言語モデル(plm)が組み込まれている。
しかしながら、2つのタイプのアプローチがどのように比較され、異なる設計選択がPLMベースのモデルの性能にどのように影響するかという体系的な研究は欠如している。
この知識ギャップを埋め、キーフレーズ抽出とキーフレーズ生成にPLMのより情報的利用を促進するために、我々は詳細な実験研究を行った。
配列ラベリングとしてのkeyphrase抽出とシーケンシャル・ツー・シーケンス生成のkeyphrase生成を定式化した。
PLMは、高リソース性能と最先端の低リソース性能の競争力を持つことを示した後、ドメイン内PLM、異なる事前学習目標を持つPLM、パラメータ予算を持つPLM、および現在のキーフレーズに対する異なる定式化を含む重要な設計選択について検討する。
さらに,(1)領域内のBERT様PLMは,強大かつデータ効率のよいキーフレーズ生成モデルの構築に利用でき,(2)パラメータ予算の固定化により,エンコーダ内のモデル深度を優先し,より多くの層を割り当てることで,エンコーダ・デコーダモデルの改善,(3)ドメイン内PLMの4つの導入により,科学領域におけるニュースドメインにおける競合性能と最先端のパフォーマンスを実現する。
関連論文リスト
- Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Parameter Efficient Diverse Paraphrase Generation Using Sequence-Level Knowledge Distillation [0.0]
自然言語生成(NLG)の分野は、主にLarge Language Models(LLM)の導入により、急激な急増を経験した。
これらのモデルは、自然言語処理および生成ドメイン内の様々な領域において、最も効果的なパフォーマンスを示してきた。
しかし、パラフレージングのようなドメイン固有のタスクへの応用は、重大な課題を提示している。
論文 参考訳(メタデータ) (2024-04-19T02:59:09Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Diverse Keyphrase Generation with Neural Unlikelihood Training [6.645227801791013]
多様性の観点からシーケンス・ツー・シーケンス(S2S)キーフレーズ生成モデルについて検討した。
我々はまず、最大推定(MLE)を用いて訓練されたベースラインモデルにより生成された出力に含まれる情報冗長度について分析する。
論文 参考訳(メタデータ) (2020-10-15T11:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。