論文の概要: BioPars: A Pretrained Biomedical Large Language Model for Persian Biomedical Text Mining
- arxiv url: http://arxiv.org/abs/2506.21567v2
- Date: Tue, 01 Jul 2025 19:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.048
- Title: BioPars: A Pretrained Biomedical Large Language Model for Persian Biomedical Text Mining
- Title(参考訳): BioPars:ペルシャのバイオメディカルテキストマイニングのための事前訓練されたバイオメディカル大規模言語モデル
- Authors: Baqer M. Merzah, Tania Taami, Salman Asoudeh, Saeed Mirzaee, Amir reza Hossein pour, Amir Ali Bengari,
- Abstract要約: BIOPARS-BENCHは1万以上の科学論文、教科書、医療ウェブサイトのデータセットである。
BioParsQAも提案されたモデルを評価するために導入され、5,231のペルシアの医療質問と回答からなる。
- 参考スコア(独自算出の注目度): 0.26388783516590225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently gained attention in the life sciences due to their capacity to model, extract, and apply complex biological information. Beyond their classical use as chatbots, these systems are increasingly used for complex analysis and problem-solving in specialized fields, including bioinformatics. First, we introduce BIOPARS-BENCH, a dataset from over 10,000 scientific articles, textbooks, and medical websites. BioParsQA was also introduced to evaluate the proposed model, which consists of 5,231 Persian medical questions and answers. This study then introduces BioPars, a simple but accurate measure designed to assess LLMs for three main abilities: acquiring subject-specific knowledge, interpreting and synthesizing such knowledge, and demonstrating proper evidence. Comparing ChatGPT, Llama, and Galactica, our study highlights their ability to remember and retrieve learned knowledge but also reveals shortcomings in addressing higher-level, real-world questions and fine-grained inferences. These findings indicate the need for further fine-tuning to address the capabilities of LLM in bioinformatics tasks. To our knowledge, BioPars is the first application of LLM in Persian medical QA, especially for generating long answers. Evaluation of four selected medical QA datasets shows that BioPars has achieved remarkable results compared to comparative approaches. The model on BioParsQA achieved a ROUGE-L score of 29.99, which is an improvement over GPT-4 1.0. The model achieved a BERTScore of 90.87 with the MMR method. The MoverScore and BLEURT values were also higher in this model than the other three models. In addition, the reported scores for the model are MoverScore=60.43 and BLEURT=50.78. BioPars is an ongoing project and all resources related to its development will be made available via the following GitHub repository: https://github.com/amirap80/BioPars.
- Abstract(参考訳): 大規模言語モデル(LLM)は最近、複雑な生物学的情報をモデル化、抽出、適用する能力から、生命科学において注目を集めている。
チャットボットとしての古典的使用以外にも、これらのシステムはバイオインフォマティクスを含む専門分野の複雑な分析や問題解決にますます利用されている。
まず,1万以上の科学論文,教科書,医療ウェブサイトのデータセットであるBIOPARS-BENCHを紹介する。
BioParsQAも提案されたモデルを評価するために導入され、5,231のペルシアの医療質問と回答からなる。
そこで本研究では,主観的な知識の獲得,そのような知識の解釈と合成,適切な証拠の証明という,3つの主要な能力についてLLMを評価するためのシンプルだが正確な尺度であるBioParsを紹介した。
ChatGPT、Llama、Galacticaと比較すると、学習した知識を記憶し、取得する能力を強調しながら、より高レベルで現実世界の質問に対処する際の欠点と、きめ細かい推測を明らかにする。
これらの結果から, バイオインフォマティクスタスクにおけるLCMの能力について, さらなる微調整の必要性が示唆された。
私たちの知る限り、BioParsは、ペルシャの医療QA、特に長い回答を生み出すために、初めてLLMを応用しました。
選択された4つのQAデータセットの評価は、BioParsが比較手法と比較して顕著な結果を得たことを示している。
BioParsQAのモデルはROUGE-Lスコア29.99を達成し、GPT-4 1.0よりも改善された。
このモデルは MMR 法で 90.87 の BERTScore を達成した。
MoverScoreとBLEURTの値も他の3モデルよりも高かった。
また、MoverScore=60.43、BLEURT=50.78と報告されている。
BioParsは進行中のプロジェクトであり、開発に関連するすべてのリソースは以下のGitHubリポジトリを通じて利用可能になる。
関連論文リスト
- BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text [82.7001841679981]
BioMedLM は270億のパラメータ GPT スタイルの自己回帰モデルであり、PubMed の抽象概念と全記事に特化して訓練されている。
微調整すると、BioMedLMはより大規模なモデルと競合する強力な多重選択のバイオメディカルな質問応答結果を生成することができる。
BioMedLMは、医療トピックに関する患者の質問に対する有用な回答を生成するために、微調整することもできる。
論文 参考訳(メタデータ) (2024-03-27T10:18:21Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Evaluation of ChatGPT Family of Models for Biomedical Reasoning and
Classification [6.163540203358258]
本研究では,大規模言語モデル(LLM)の性能について,質問応答以外のバイオメディカルな課題について検討した。
OpenAI APIの公開インターフェースに患者データを渡すことはできないため、モデルのパフォーマンスを10000以上のサンプルで評価した。
2つの基本的なNLPタスクの微調整が最良戦略であることがわかった。
論文 参考訳(メタデータ) (2023-04-05T15:11:25Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - BIOS: An Algorithmically Generated Biomedical Knowledge Graph [4.030892610300306]
バイオメディカル・インフォマティクス・オントロジー・システム(BIOS)は,機械学習アルゴリズムによって完全に生成される,最初の大規模公開可能なBioMedKGである。
BIOSには4100万のコンセプト、2つの言語で740万の用語と730万のリレーション・トリプルが含まれている。
結果は、機械学習ベースのBioMedKG開発が、従来の専門家のキュレーションを置き換えるための、完全に実行可能なソリューションであることを示唆している。
論文 参考訳(メタデータ) (2022-03-18T14:09:22Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。