論文の概要: CBAG: Conditional Biomedical Abstract Generation
- arxiv url: http://arxiv.org/abs/2002.05637v1
- Date: Thu, 13 Feb 2020 17:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 09:51:22.247759
- Title: CBAG: Conditional Biomedical Abstract Generation
- Title(参考訳): CBAG: 条件付きバイオメディカル抽象生成
- Authors: Justin Sybrandt, Ilya Safro
- Abstract要約: 浅層エンコーダ"条件"スタックと,マルチヘッドアテンションブロックの深層"言語モデル"スタックを備えたトランスフォーマーベースの条件言語モデルを提案する。
提案したタイトル,意図した出版年,キーワードのセットのみをバイオメディカルな要約として生成する。
- 参考スコア(独自算出の注目度): 1.2633386045916442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biomedical research papers use significantly different language and jargon
when compared to typical English text, which reduces the utility of pre-trained
NLP models in this domain. Meanwhile Medline, a database of biomedical
abstracts, introduces nearly a million new documents per-year. Applications
that could benefit from understanding this wealth of publicly available
information, such as scientific writing assistants, chat-bots, or descriptive
hypothesis generation systems, require new domain-centered approaches. A
conditional language model, one that learns the probability of words given some
a priori criteria, is a fundamental building block in many such applications.
We propose a transformer-based conditional language model with a shallow
encoder "condition" stack, and a deep "language model" stack of multi-headed
attention blocks. The condition stack encodes metadata used to alter the output
probability distribution of the language model stack. We sample this
distribution in order to generate biomedical abstracts given only a proposed
title, an intended publication year, and a set of keywords. Using typical
natural language generation metrics, we demonstrate that this proposed approach
is more capable of producing non-trivial relevant entities within the abstract
body than the 1.5B parameter GPT-2 language model.
- Abstract(参考訳): 医学的な研究論文では、典型的な英語のテキストと比較して言語と用語がかなり異なるため、この領域で事前訓練されたNLPモデルの実用性が低下する。
一方、バイオメディカル抽象化のデータベースであるMedlineは、年間100万近い新しいドキュメントを導入している。
科学的な記述アシスタント、チャットボット、記述的仮説生成システムといった、この豊富な公開情報を理解する利点を享受できるアプリケーションは、新しいドメイン中心のアプローチを必要とする。
条件付き言語モデルは、いくつかの事前基準が与えられた単語の確率を学習するものであり、そのような多くのアプリケーションにおいて基本的な構成要素である。
本稿では,浅いエンコーダ"条件"スタックと,マルチヘッドアテンションブロックの深い"言語モデル"スタックを備えたトランスフォーマティブベースの条件言語モデルを提案する。
条件スタックは、言語モデルスタックの出力確率分布を変更するために使用されるメタデータを符号化する。
この分布をサンプル化し,提案されたタイトル,意図する出版年,キーワードセットのみをバイオメディカルな要約として生成する。
典型的な自然言語生成指標を用いて,1.5BパラメータGPT-2言語モデルよりも抽象体内で非自明な実体を生成できることを示す。
関連論文リスト
- Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings [10.39989311209284]
医療分野における言語モデルに関する総合的な調査を行った。
医療用テキスト分類と条件付きテキスト生成のためのサブセットの評価を行った。
その結果、タスク全体での顕著なパフォーマンスが明らかとなり、特定のモデルが医療知識を含む可能性について評価された。
論文 参考訳(メタデータ) (2024-06-24T12:52:02Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for
Biomedical Entity Recognition [4.865221751784403]
この研究は、UMLSからテキストシーケンスを抽出することにより、バイオメディカルトランスフォーマーエンコーダLMの言語表現を強化するためのデータ中心パラダイムに寄与する。
予め訓練したLMの拡張およびスクラッチからのトレーニングによる実験の結果から,複数の生物医学的,臨床的な名前付きエンティティ認識(NER)タスクにおける下流性能の向上が示された。
論文 参考訳(メタデータ) (2023-07-20T18:08:34Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - BioMegatron: Larger Biomedical Domain Language Model [10.861369276414525]
ドメイン言語アプリケーションの性能に影響を与えるいくつかの要因について検討し、評価する。
より大規模なドメインコーパスでトレーニングしたBioMegatronモデルとベンチマークで一貫した改善を示す。
論文 参考訳(メタデータ) (2020-10-12T22:46:10Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。