論文の概要: Pre-training data selection for biomedical domain adaptation using journal impact metrics
- arxiv url: http://arxiv.org/abs/2409.02725v1
- Date: Wed, 4 Sep 2024 13:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 17:55:43.335826
- Title: Pre-training data selection for biomedical domain adaptation using journal impact metrics
- Title(参考訳): ジャーナル・インパクト・メトリクスを用いたバイオメディカル・ドメイン適応のための事前学習データ選択
- Authors: Mathieu Laï-king, Patrick Paroubek,
- Abstract要約: 我々は, PubMed トレーニングセットの各種サブセット上で, BERT を継続的に事前学習することにより, 雑誌のインパクト測定と実験を行う。
本研究の結果から,ジャーナルインパクトメトリクスを用いたプルーニングは効率的ではないことが示唆された。しかし,より少ない抽象度を用いた事前学習(ただし,同じ数のトレーニングステップで)は,必ずしも結果のモデルの性能を低下させるわけではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain adaptation is a widely used method in natural language processing (NLP) to improve the performance of a language model within a specific domain. This method is particularly common in the biomedical domain, which sees regular publication of numerous scientific articles. PubMed, a significant corpus of text, is frequently used in the biomedical domain. The primary objective of this study is to explore whether refining a pre-training dataset using specific quality metrics for scientific papers can enhance the performance of the resulting model. To accomplish this, we employ two straightforward journal impact metrics and conduct experiments by continually pre-training BERT on various subsets of the complete PubMed training set, we then evaluate the resulting models on biomedical language understanding tasks from the BLURB benchmark. Our results show that pruning using journal impact metrics is not efficient. But we also show that pre-training using fewer abstracts (but with the same number of training steps) does not necessarily decrease the resulting model's performance.
- Abstract(参考訳): ドメイン適応は、自然言語処理(NLP)において、特定のドメイン内の言語モデルの性能を改善するために広く使われている手法である。
この方法は、多くの科学論文を定期的に出版するバイオメディカル分野において特に一般的である。
PubMedは重要なテキストコーパスであり、バイオメディカルドメインで頻繁に使われている。
本研究の主な目的は,学術論文の特定の品質指標を用いた事前学習データセットの精錬によって,得られたモデルの性能が向上するかどうかを検討することである。
そこで本研究では,完全なPubMedトレーニングセットの様々なサブセット上でBERTを継続的に事前学習し,BLURBベンチマークから得られたバイオメディカル言語理解タスクのモデルを評価することによって,2つの簡単なジャーナルインパクト指標を用いて実験を行う。
本結果から, ジャーナルインパクト指標を用いたプルーニングは効率的ではないことがわかった。
しかし、抽象化の少ない事前トレーニング(ただし、同じトレーニングステップの数)は、必ずしも結果のモデルの性能を低下させるとは限らないことも示しています。
関連論文リスト
- Exploring the Effectiveness of Instruction Tuning in Biomedical Language
Processing [19.41164870575055]
本研究では,バイオメディカル言語処理における指導指導の可能性について検討する。
約20,000ドルのインストラクション中心のサンプルからなるデータセットで訓練された包括的,命令ベースのモデルを提案する。
論文 参考訳(メタデータ) (2023-12-31T20:02:10Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain [45.96917694724562]
medBERTdeは、ドイツの医療ドメイン向けに設計された、訓練済みのドイツのBERTモデルである。
このモデルは、ドイツの医療文書470万件の大規模なコーパスで訓練されている。
論文 参考訳(メタデータ) (2023-03-14T18:58:08Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Pre-training technique to localize medical BERT and enhance biomedical
BERT [0.0]
高品質で大容量のデータベースが公開されていないドメインでうまく機能する特定のBERTモデルを訓練することは困難である。
本稿では,アップサンプリングと増幅語彙の同時事前学習という,一つの選択肢による1つの介入を提案する。
我が国の医療用BERTは,医学文書分類タスクにおいて,従来のベースラインおよび他のBERTモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-05-14T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。