論文の概要: Enhancing Biomedical Text Summarization and Question-Answering: On the
Utility of Domain-Specific Pre-Training
- arxiv url: http://arxiv.org/abs/2307.04412v1
- Date: Mon, 10 Jul 2023 08:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 13:52:31.761827
- Title: Enhancing Biomedical Text Summarization and Question-Answering: On the
Utility of Domain-Specific Pre-Training
- Title(参考訳): バイオメディカルテキスト要約と質問応答の強化:ドメイン特化事前学習の有用性について
- Authors: Dima Galat, Marian-Andrei Rizoiu
- Abstract要約: 我々は、適切なモデルアーキテクチャを特定し、それを汎用ドメイン事前トレーニングの利点を示し、タスク固有の微調整を行う。
以上の結果から,ドメイン固有のバイオメディカルテキスト生成タスクにおいて,ドメイン固有の事前学習を伴わない大規模言語モデルが有意なエッジを持つ可能性が示唆された。
- 参考スコア(独自算出の注目度): 10.267057557137665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical summarization requires large datasets to train for text
generation. We show that while transfer learning offers a viable option for
addressing this challenge, an in-domain pre-training does not always offer
advantages in a BioASQ summarization task. We identify a suitable model
architecture and use it to show a benefit of a general-domain pre-training
followed by a task-specific fine-tuning in the context of a BioASQ
summarization task, leading to a novel three-step fine-tuning approach that
works with only a thousand in-domain examples. Our results indicate that a
Large Language Model without domain-specific pre-training can have a
significant edge in some domain-specific biomedical text generation tasks.
- Abstract(参考訳): バイオメディカル要約は、テキスト生成のためにトレーニングするために大きなデータセットを必要とする。
転送学習は,この課題に対処するための有効な選択肢であるが,ドメイン内事前学習は,BioASQ要約タスクにおいて必ずしも有利ではない。
そこで我々は,BioASQ要約タスクのコンテキストにおいて,汎用ドメイン事前学習のメリットを示すために適切なモデルアーキテクチャを特定し,タスク固有の微調整を行う。
以上の結果から,ドメイン固有のバイオメディカルテキスト生成タスクにおいて,ドメイン固有の事前学習のない大規模言語モデルが重要なエッジを持つ可能性が示唆された。
関連論文リスト
- Probabilistic Domain Adaptation for Biomedical Image Segmentation [2.5382095320488665]
本稿では,確率的ドメイン適応手法,自己学習アプローチ,確率的UNetを提案する。
本研究では, バイオメディカルセグメンテーションのための3つの課題領域適応課題について, 共同および個別のソースターゲットトレーニング戦略について検討し, 評価を行った。
論文 参考訳(メタデータ) (2023-03-21T12:17:21Z) - BioBART: Pretraining and Evaluation of A Biomedical Generative Language
Model [1.1764594853212893]
本稿では,BARTをバイオメディカル領域に適応させる生成言語モデルBioBARTを紹介する。
我々は、対話、要約、エンティティリンク、名前付きエンティティ認識など、様々なバイオメディカル言語生成タスクを照合する。
PubMedの抽象化で事前訓練されたBioBARTは、BARTと比較してパフォーマンスが向上し、いくつかのタスクに強いベースラインが設定されている。
論文 参考訳(メタデータ) (2022-04-08T08:07:42Z) - Slot Filling for Biomedical Information Extraction [0.5330240017302619]
バイオメディカルIEの課題に対してスロットフィリングアプローチを提案する。
我々は、トランフォーマベースのバイエンコーダDense Passage RetrievalをTransformerベースのリーダーモデルと結合する提案パラダイムに従う。
論文 参考訳(メタデータ) (2021-09-17T14:16:00Z) - SciFive: a text-to-text transformer model for biomedical literature [0.9482369543628087]
本稿では,大規模なバイオメディカルコーパスで事前学習したドメイン固有T5モデルであるSciFiveを紹介する。
本研究は,より困難なテキスト生成タスクの探索と,本領域における新しい手法の開発を支援する。
論文 参考訳(メタデータ) (2021-05-28T06:09:23Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。