論文の概要: Evaluation of GPT and BERT-based models on identifying protein-protein
interactions in biomedical text
- arxiv url: http://arxiv.org/abs/2303.17728v1
- Date: Thu, 30 Mar 2023 22:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-04-03 15:46:58.916391
- Title: Evaluation of GPT and BERT-based models on identifying protein-protein
interactions in biomedical text
- Title(参考訳): バイオメディカルテキストにおけるタンパク質間相互作用の同定のためのGPTおよびBERTモデルの評価
- Authors: Hasin Rehana, Nur Bengisu \c{C}am, Mert Basmaci, Yongqun He, Arzucan
\"Ozg\"ur, Junguk Hur
- Abstract要約: 生成事前学習変換器(GPT)や変換器(BERT)からの双方向エンコーダ表現などの事前学習言語モデルは、自然言語処理(NLP)タスクにおいて有望な結果を示している。
学習言語論理(LLL)から得られた77文中の164PPIのベンチマークコーパスを用いて,様々なGPTおよびBERTモデルのPPI識別性能を評価した。
BERTベースのモデルは最高性能を達成し、PubMedBERTは最高精度(85.17%)、F1スコア(86.47%)、BioM-ALBERTは最高リコール(93.83%)を達成した。
- 参考スコア(独自算出の注目度): 0.6375329734462518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting protein-protein interactions (PPIs) is crucial for understanding
genetic mechanisms, disease pathogenesis, and drug design. However, with the
fast-paced growth of biomedical literature, there is a growing need for
automated and accurate extraction of PPIs to facilitate scientific knowledge
discovery. Pre-trained language models, such as generative pre-trained
transformer (GPT) and bidirectional encoder representations from transformers
(BERT), have shown promising results in natural language processing (NLP)
tasks. We evaluated the PPI identification performance of various GPT and BERT
models using a manually curated benchmark corpus of 164 PPIs in 77 sentences
from learning language in logic (LLL). BERT-based models achieved the best
overall performance, with PubMedBERT achieving the highest precision (85.17%)
and F1-score (86.47%) and BioM-ALBERT achieving the highest recall (93.83%).
Despite not being explicitly trained for biomedical texts, GPT-4 achieved
comparable performance to the best BERT models with 83.34% precision, 76.57%
recall, and 79.18% F1-score. These findings suggest that GPT models can
effectively detect PPIs from text data and have the potential for use in
biomedical literature mining tasks.
- Abstract(参考訳): タンパク質-タンパク質相互作用(PPI)の検出は、遺伝子機構、疾患の病因、薬物設計を理解するために重要である。
しかし, 生物医学文献の急速な成長に伴い, 科学的知識発見を促進するために, PPIの自動的かつ正確な抽出の必要性が高まっている。
生成事前学習変換器(GPT)や変換器(BERT)からの双方向エンコーダ表現などの事前学習言語モデルは、自然言語処理(NLP)タスクにおいて有望な結果を示している。
各種GPTおよびBERTモデルのPPI識別性能について,LLL(Learning Language in logic)から77文で164PPIのベンチマークコーパスを手作業で評価した。
BERTベースのモデルは最高性能を達成し、PubMedBERTは最高精度85.17%、F1スコア86.47%、BioM-ALBERTは最高リコール93.83%を記録した。
GPT-4はバイオメディカルテキストのトレーニングを受けていなかったが、83.34%の精度、76.57%のリコール、79.18%のF1スコアで最高のBERTモデルに匹敵する性能を達成した。
これらの結果から, GPTモデルはテキストデータからPPIを効果的に検出し, バイオメディカル文献マイニングタスクに活用できる可能性が示唆された。
関連論文リスト
- A general language model for peptide identification [4.044600688588866]
PDeepPPは、事前訓練されたタンパク質言語モデルと並列トランスフォーマー-CNNアーキテクチャを統合するディープラーニングフレームワークである。
このモデルのハイブリッドアーキテクチャは、局所的なシーケンスモチーフとグローバルな構造特徴の両方をキャプチャするユニークな機能を示している。
決定的なグリコシル化部位の検出において99.5%の特異性を保ちながら、配列アライメント法よりも218*の加速を達成した。
論文 参考訳(メタデータ) (2025-02-21T17:31:22Z) - Finetuning and Quantization of EEG-Based Foundational BioSignal Models on ECG and PPG Data for Blood Pressure Estimation [53.2981100111204]
光胸腺撮影と心電図は、連続血圧モニタリング(BP)を可能にする可能性がある。
しかし、データ品質と患者固有の要因の変化のため、正確で堅牢な機械学習(ML)モデルは依然として困難である。
本研究では,1つのモータリティで事前学習したモデルを効果的に利用して,異なる信号タイプの精度を向上させる方法について検討する。
本手法は, 拡張期BPの最先端精度を約1.5倍に向上し, 拡張期BPの精度を1.5倍に向上させる。
論文 参考訳(メタデータ) (2025-02-10T13:33:12Z) - OPTIC: Optimizing Patient-Provider Triaging & Improving Communications in Clinical Operations using GPT-4 Data Labeling and Model Distillation [0.0]
本研究は, 医師の作業量削減と患者と患者とのコミュニケーション改善を目的とした, メッセージトリアージのための効率的なツールの開発を目的とする。
我々は,データラベリングにGPT-4,モデル蒸留にBERTを利用する強力なメッセージトリアージツールOPTICを開発した。
BERTモデルは、GPT-4ラベルで検証されたテストセットで88.85%の精度を達成し、感度は88.29%、特異性は89.38%、F1スコアは0.8842である。
論文 参考訳(メタデータ) (2025-02-05T05:49:34Z) - Peptide-GPT: Generative Design of Peptides using Generative Pre-trained Transformers and Bio-informatic Supervision [7.275932354889042]
異なる性質を持つタンパク質配列を生成するのに適したタンパク質言語モデルを導入する。
生成した配列をそれらの難易度スコアに基づいてランク付けし、タンパク質の許容凸殻の外にある配列をフィルタリングする。
溶血率76.26%, 非溶血率72.46%, 非溶血率78.84%, 溶血率68.06%であった。
論文 参考訳(メタデータ) (2024-10-25T00:15:39Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Extracting Structured Seed-Mediated Gold Nanorod Growth Procedures from
Literature with GPT-3 [52.59930033705221]
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
論文 参考訳(メタデータ) (2023-04-26T22:21:33Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Bioformer: an efficient transformer language model for biomedical text
mining [8.961510810015643]
本稿では,バイオメディカルテキストマイニングのための小型BERTモデルであるBioformerを紹介する。
BERTBaseと比較してモデルサイズを60%削減する2つのBioformerモデルを事前訓練した。
パラメータが60%少ないため、Bioformer16L は PubMedBERT よりも 0.1% しか正確ではない。
論文 参考訳(メタデータ) (2023-02-03T08:04:59Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - Large-scale protein-protein post-translational modification extraction
with distant supervision and confidence calibrated BioBERT [6.1347671366134895]
PPI-BioBERT-x10と呼ばれるBioBERTモデルのアンサンブルをトレーニングし、信頼性校正を改善する。
PPI-BioBERT-x10を1千万のPubMed抽象体で評価し,PTM-PPI予測を1.6万(546507個のPTM-PPI三重項),フィルタ5700(4584個のユニークな)高信頼予測を抽出した。
論文 参考訳(メタデータ) (2022-01-06T19:59:14Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - BioNerFlair: biomedical named entity recognition using flair embedding
and sequence tagger [0.0]
本稿では,生物医学的実体認識のためのモデルトレーニング手法であるBioNerFlairを紹介する。
名前付きエンティティ認識に広く使われているほぼ同じ汎用アーキテクチャで、BioNerFlairは従来の最先端モデルより優れている。
論文 参考訳(メタデータ) (2020-11-03T06:46:45Z) - Assigning function to protein-protein interactions: a weakly supervised
BioBERT based approach using PubMed abstracts [2.208694022993555]
タンパク質とタンパク質の相互作用(PPI)は正常細胞と疾患細胞のタンパク質の機能に重要である。
タンパク質相互作用データベースで取得されるPPIのごく一部に、機能アノテーションがある。
本稿では,PubMed の要約に記述された関係を抽出することで,PPIの関数型をラベル付けすることを目的とする。
論文 参考訳(メタデータ) (2020-08-20T01:42:28Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。