論文の概要: Large Language Models and Control Mechanisms Improve Text Readability of
Biomedical Abstracts
- arxiv url: http://arxiv.org/abs/2309.13202v1
- Date: Fri, 22 Sep 2023 22:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:32:33.653151
- Title: Large Language Models and Control Mechanisms Improve Text Readability of
Biomedical Abstracts
- Title(参考訳): 大規模言語モデルと制御機構による生物医学的要約のテキスト可読性の向上
- Authors: Zihao Li, Samuel Belkadi, Nicolo Micheletti, Lifeng Han, Matthew
Shardlow, Goran Nenadic
- Abstract要約: 本稿では,生物医学的抽象的単純化作業における最先端の大規模言語モデル(LLM)の能力について検討する。
適用方法は、ドメインファインチューニングとプロンプトベースの学習を含む。
BLEU,ROUGE,SARI,BERTscoreなど,さまざまな自動評価指標を用い,人的評価を行った。
- 参考スコア(独自算出の注目度): 17.008098084175323
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Biomedical literature often uses complex language and inaccessible
professional terminologies. That is why simplification plays an important role
in improving public health literacy. Applying Natural Language Processing (NLP)
models to automate such tasks allows for quick and direct accessibility for lay
readers. In this work, we investigate the ability of state-of-the-art large
language models (LLMs) on the task of biomedical abstract simplification, using
the publicly available dataset for plain language adaptation of biomedical
abstracts (\textbf{PLABA}). The methods applied include domain fine-tuning and
prompt-based learning (PBL) on: 1) Encoder-decoder models (T5, SciFive, and
BART), 2) Decoder-only GPT models (GPT-3.5 and GPT-4) from OpenAI and BioGPT,
and 3) Control-token mechanisms on BART-based models. We used a range of
automatic evaluation metrics, including BLEU, ROUGE, SARI, and BERTscore, and
also conducted human evaluations. BART-Large with Control Token (BART-L-w-CT)
mechanisms reported the highest SARI score of 46.54 and T5-base reported the
highest BERTscore 72.62. In human evaluation, BART-L-w-CTs achieved a better
simplicity score over T5-Base (2.9 vs. 2.2), while T5-Base achieved a better
meaning preservation score over BART-L-w-CTs (3.1 vs. 2.6). We also categorised
the system outputs with examples, hoping this will shed some light for future
research on this task. Our code, fine-tuned models, and data splits are
available at \url{https://github.com/HECTA-UoM/PLABA-MU}
- Abstract(参考訳): 医学文献は複雑な言語と到達不能な専門用語を用いることが多い。
そのため、公衆衛生リテラシーを改善する上で、単純化が重要な役割を果たす。
このようなタスクを自動化するために自然言語処理(nlp)モデルを適用することで、在地読者の迅速かつ直接的なアクセシビリティが実現される。
本研究では,生物医学的要約の平易な言語適応のためのデータセットを用いて,生物医学的抽象単純化タスクにおける最先端の大規模言語モデル(llms)の能力について検討する。
適用方法としては、ドメインファインチューニングとプロンプトベースラーニング(PBL)がある。
1)エンコーダ-デコーダモデル(t5, scifive, bart)
2) OpenAI および BioGPT からのデコーダのみの GPT モデル (GPT-3.5 および GPT-4) と BART モデルにおける制御制御機構について検討した。
BLEU,ROUGE,SARI,BERTscoreなど,さまざまな自動評価指標を用い,人的評価を行った。
BART-L-w-CT(BART-L-w-CT)機構ではSARIスコアが46.54、T5ベースではBERTscore 72.62であった。
人間による評価では、BART-L-w-CTsはT5-Base(2.9 vs. 2.2)よりもシンプルさが向上し、T5-BaseはBART-L-w-CTs(3.1 vs. 2.6)よりも保存性が向上した。
我々はまた、システムのアウトプットを例に分類し、このタスクに関する今後の研究に光を当てることを望んだ。
我々のコード、微調整モデル、データ分割は \url{https://github.com/HECTA-UoM/PLABA-MU} で利用可能である。
関連論文リスト
- Autocompletion of Chief Complaints in the Electronic Health Records
using Large Language Models [0.3749861135832072]
テキスト生成技術を用いて,CCデータを用いた機械学習モデルを構築する。
我々は, GPT-4のOpenAI APIを利用して, CC文を組み込むことで, プロンプトを調整した。
モデルの性能は、パープレキシティスコア、修正BERTSスコア、コサイン類似度スコアに基づいて評価する。
論文 参考訳(メタデータ) (2024-01-11T18:06:30Z) - BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained
Transformer for Vision, Language, and Multimodal Tasks [67.32172830174797]
バイオメディカルタスクのための,初のオープンソースで汎用的なビジュアル言語AIであるBiomedGPTを提案する。
26のデータセットで5つの臨床的に重要なタスクに対して16の最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Large language models in biomedical natural language processing:
benchmarks, baselines, and recommendations [16.609312090364448]
大きな言語モデル(LLM)は、その素晴らしいパフォーマンスに対して大きな注目を集めています。
本研究では,8つのBioNLPデータセットにおいて,ゼロショットとワンショットの両方でGPT-3とGPT-4のベースライン性能を確立する。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Biomedical named entity recognition using BERT in the machine reading
comprehension framework [16.320249089801884]
バイオメディカルな名前付きエンティティ認識(BioNER)を実現する新しい手法を提案する。
そこで我々は,BioNERタスクをシーケンスラベリング問題として扱う代わりに,機械読解問題として定式化する。
提案手法は,BC4CHEMD,BC5CDR-Chem,BC5CDR-Disease,NCBI-Disease,BC2GMおよびJNLPBAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2020-09-03T10:10:20Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z) - Pre-training technique to localize medical BERT and enhance biomedical
BERT [0.0]
高品質で大容量のデータベースが公開されていないドメインでうまく機能する特定のBERTモデルを訓練することは困難である。
本稿では,アップサンプリングと増幅語彙の同時事前学習という,一つの選択肢による1つの介入を提案する。
我が国の医療用BERTは,医学文書分類タスクにおいて,従来のベースラインおよび他のBERTモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-05-14T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。