論文の概要: An Empirical Analysis of Fine-Tuning Large Language Models on Bioinformatics Literature: PRSGPT and BioStarsGPT
- arxiv url: http://arxiv.org/abs/2601.11573v1
- Date: Mon, 29 Dec 2025 19:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.764004
- Title: An Empirical Analysis of Fine-Tuning Large Language Models on Bioinformatics Literature: PRSGPT and BioStarsGPT
- Title(参考訳): PRSGPTとBioStarsGPTを用いたバイオインフォマティクスによる微調整大言語モデルの実証分析
- Authors: Muhammad Muneeb, David B. Ascher,
- Abstract要約: 本稿では,生物情報学の専門データに基づいて,大規模言語モデル(LLM)を微調整するための再現可能なパイプラインを提案する。
3つのLSMを微調整し、14以上の語彙と意味のメトリクスでそれらをベンチマークした。
Qwen2.5-7Bは、BLEU-4とROUGE-1がそれぞれPSSGPTとBioStarsGPTで82%、70%改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often lack specialized knowledge for complex bioinformatics applications. We present a reproducible pipeline for fine-tuning LLMs on specialized bioinformatics data, demonstrated through two use cases: PRSGPT, focused on polygenic risk score (PRS) tools, and BioStarsGPT, trained on community forum discussions. The nine-step pipeline integrates diverse data sources, structured preprocessing, prompt-based question-answer (QA) generation (via Google Gemini), natural language inference (NLI) for quality control, semantic deduplication, clustering-based data splitting, and parameter-efficient fine-tuning using LoRA. We fine-tuned three LLMs (LLaMA-3.2-3B, Qwen2.5-7B, Gemma) and benchmarked them on over 14 lexical and semantic metrics. Qwen2.5-7B emerged as the best performer, with BLEU-4 and ROUGE-1 improvements of 82\% and 70\% for PRSGPT and 6\% and 18\% for BioStarsGPT, respectively. The open-source datasets produced include over 28,000 QA pairs for PRSGPT and 154,282 for BioStarsGPT. Human evaluation of PRSGPT yielded 61.9\% accuracy on the PRS tools comparison task, comparable to Google Gemini (61.4\%), but with richer methodological detail and accurate citations. BioStarsGPT demonstrated 59\% conceptual accuracy across 142 curated bioinformatics questions. Our pipeline enables scalable, domain-specific fine-tuning of LLMs. It enables privacy-preserving, locally deployable bioinformatics assistants, explores their practical applications, and addresses the challenges, limitations, and mitigation strategies associated with their development and use.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なバイオインフォマティクスの応用に関する専門知識を欠いていることが多い。
本稿では, PRSGPT (polygenic risk score, PRS) ツール, BioStarsGPT (BioStarsGPT) の2つのユースケースを通して, 特定のバイオインフォマティクスデータに基づいて, 微調整LLMを再現可能なパイプラインを提案する。
9ステップのパイプラインは、さまざまなデータソース、構造化前処理、(Google Geminiによる)プロンプトベースの質問応答(QA)生成、品質管理のための自然言語推論(NLI)、セマンティック重複、クラスタリングベースのデータ分割、LoRAを使用したパラメータ効率の良い微調整を統合している。
3つのLLM(LLaMA-3.2-3B, Qwen2.5-7B, Gemma)を微調整し,14以上の語彙的および意味的指標でベンチマークした。
Qwen2.5-7B は BLEU-4 と ROUGE-1 の改善は PRSGPT では 82 % と 70 %、BioStarsGPT では 6 % と 18 % であった。
オープンソースデータセットには、PSSGPT用の28,000QAペアとBioStarsGPT用の154,282ペアが含まれている。
PRSGPTの人間による評価は、Google Gemini(61.4\%)に匹敵するPSSツールの比較タスクにおいて61.9\%の精度を得た。
BioStarsGPTは、142の培養されたバイオインフォマティクスの質問に対して59倍の精度を示した。
我々のパイプラインはスケーラブルでドメイン固有のLLMの微調整を可能にする。
プライバシーを保護し、ローカルにデプロイ可能なバイオインフォマティクスアシスタントを可能にし、実践的な応用を探究し、開発と使用に関連する課題、制限、緩和戦略に対処する。
関連論文リスト
- GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models [194.64264251080454]
GLM-4.5はオープンソースのMixture-of-Experts(MoE)大言語モデルであり,総パラメータは355B,アクティベートパラメータは32Bである。
23Tトークンのマルチステージトレーニングと、エキスパートモデルのイテレーションと強化学習による総合的なポストトレーニングを通じて、GLM-4.5はエージェント、推論、コーディングタスクにわたって強力なパフォーマンスを実現している。
GLM-4.5(355Bパラメータ)とGLM-4.5-Air(106Bパラメータ)をそれぞれリリースし、推論とエージェントAIシステムの研究を進めた。
論文 参考訳(メタデータ) (2025-08-08T17:21:06Z) - ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [40.49917730563565]
ESGeniusは、環境、社会、ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のための総合的なベンチマークである。
ESGenius-QA (i) ESGenius-QA (i) ESGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-Corpus (i) ESGenius-Corpus (i) ESGenius-Corpusは231の基本的なフレームワーク、標準、レポート、レコメンデーションドキュメントを、7つの権威あるソースから収集した。
論文 参考訳(メタデータ) (2025-06-02T13:19:09Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing [10.698756010878688]
25,005の命令から大規模言語モデル(LLM)を作成する。
命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。
いくつかのBioNLPタスクにおいて、これらの命令調整LDMを評価し、質問応答(QA)、情報抽出(IE)、テキスト生成(GEN)の3つの主要なカテゴリに分類できる。
論文 参考訳(メタデータ) (2023-10-30T19:38:50Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。
我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。
LLM出力の不足情報や幻覚といった問題を見つけます。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。