論文の概要: A Large-Scale Dataset for Biomedical Keyphrase Generation
- arxiv url: http://arxiv.org/abs/2211.12124v1
- Date: Tue, 22 Nov 2022 09:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:35:26.403398
- Title: A Large-Scale Dataset for Biomedical Keyphrase Generation
- Title(参考訳): 生物医学的キーフレーズ生成のための大規模データセット
- Authors: Mael Houbre, Florian Boudin and Beatrice Daille
- Abstract要約: kp-biomedは、PubMedの抽象化から収集された500万以上のドキュメントを持つ、最初の大規模バイオメディカルキーフリーゼ生成データセットである。
いくつかの生成モデルを訓練してリリースし、大規模なデータセットを使用することで、現在および欠落したキーフレーズ生成のパフォーマンスを大幅に改善することを示す一連の実験を行った。
- 参考スコア(独自算出の注目度): 8.293345261434945
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Keyphrase generation is the task consisting in generating a set of words or
phrases that highlight the main topics of a document. There are few datasets
for keyphrase generation in the biomedical domain and they do not meet the
expectations in terms of size for training generative models. In this paper, we
introduce kp-biomed, the first large-scale biomedical keyphrase generation
dataset with more than 5M documents collected from PubMed abstracts. We train
and release several generative models and conduct a series of experiments
showing that using large scale datasets improves significantly the performances
for present and absent keyphrase generation. The dataset is available under
CC-BY-NC v4.0 license at https://huggingface.co/ datasets/taln-ls2n/kpbiomed.
- Abstract(参考訳): キーフレーズ生成(keyphrase generation)とは、文書の主要なトピックを強調する一連の単語やフレーズを生成するタスクである。
生体医学領域ではキーフレーズ生成のためのデータセットは少なく、生成モデルのトレーニングにおけるサイズに関する期待を満たしていない。
本稿では,PubMedの要約から500万以上の文書を収集した,最初の大規模バイオメディカルキーフレーズ生成データセットであるkp-biomedを紹介する。
いくつかの生成モデルのトレーニングとリリースを行い、大規模なデータセットを使用することで、現在および不在のキーフレーズ生成のパフォーマンスが大幅に向上することを示す一連の実験を行った。
データセットはCC-BY-NC v4.0ライセンスでhttps://huggingface.co/ datasets/taln-ls2n/kpbiomedで利用可能である。
関連論文リスト
- VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models [5.713983191152314]
VTechAGPは、最初の学術から一般のテキストパラフレーズデータセットである。
また,新しい動的ソフトプロンプト生成言語モデルDSPT5を提案する。
トレーニングでは、動的プロンプトでキーワードを学習するために、コントラッシブ・ジェネレーション・ロス関数を利用する。
論文 参考訳(メタデータ) (2024-11-07T16:06:00Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Data Augmentation for Low-Resource Keyphrase Generation [46.52115499306222]
キーフレーズ生成(英: Keyphrase generation)とは、任意の記事の内容をいくつかの有能なフレーズ(またはキーフレーズ)に要約するタスクである。
タスクの既存の作業は主に、取得が簡単ではない大規模なアノテートデータセットに依存しています。
我々は、純粋にリソース制約のあるドメインにおいて、キーフレーズの生成に対処するためのデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-05-29T09:20:34Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - BigBIO: A Framework for Data-Centric Biomedical Natural Language
Processing [13.30221348538759]
バイオメディカルNLPデータセット126以上のコミュニティライブラリであるBigBIOを紹介する。
BigBIOは、データセットとそのメタデータへのプログラムアクセスを通じて、再現可能なメタデータキュレーションを容易にする。
本稿では,タスクスキーマ,データ監査,コントリビューションガイドライン,および2つの実証的ユースケースの概要について論じる。
論文 参考訳(メタデータ) (2022-06-30T07:15:45Z) - Keyphrase Generation Beyond the Boundaries of Title and Abstract [28.56508031460787]
キーワード生成は、与えられた文書を最もよく記述するフレーズ(キーワード)を生成することを目的としている。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを考察する。
特に記事の要約形式で全文から文を追加することは、両方のキーフレーズの生成を著しく改善することを発見した。
論文 参考訳(メタデータ) (2021-12-13T16:33:01Z) - Towards Document-Level Paraphrase Generation with Sentence Rewriting and
Reordering [88.08581016329398]
文書レベルのパラフレーズ生成のためのCoRPG(Coherence Relation Guided Paraphrase Generation)を提案する。
グラフGRUを用いて、コヒーレンス関係グラフを符号化し、各文のコヒーレンス対応表現を得る。
我々のモデルは、より多様性とセマンティックな保存を伴う文書パラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-09-15T05:53:40Z) - PerKey: A Persian News Corpus for Keyphrase Extraction and Generation [1.192436948211501]
PerKeyは、ペルシャの6つのニュースサイトから553kのニュース記事のコーパスであり、比較的高品質な著者がキーフレーズを抽出した。
データは、キーフレーズの品質を保証するために、人間の評価に入れられた。
論文 参考訳(メタデータ) (2020-09-25T14:36:41Z) - Select, Extract and Generate: Neural Keyphrase Generation with
Layer-wise Coverage Attention [75.44523978180317]
本稿では,2つの主要成分からなるニューラルキーフレーズ生成モデルであるemphSEG-Netを提案する。
科学的およびWeb文書から得られた7つのキーフレーズ生成ベンチマークの実験結果は、SEG-Netが最先端のニューラル生成手法よりも大きなマージンで優れていることを示している。
論文 参考訳(メタデータ) (2020-08-04T18:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。