論文の概要: BioMedSearch: A Multi-Source Biomedical Retrieval Framework Based on LLMs
- arxiv url: http://arxiv.org/abs/2510.13926v1
- Date: Wed, 15 Oct 2025 13:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.547613
- Title: BioMedSearch: A Multi-Source Biomedical Retrieval Framework Based on LLMs
- Title(参考訳): BioMedSearch: LLMに基づいたマルチソースバイオメディカル検索フレームワーク
- Authors: Congying Liu, Xingyuan Wei, Peipei Liu, Yiqing Shen, Yanxu Mao, Tiehan Cui,
- Abstract要約: 大規模言語モデル(LLM)に基づくバイオメディカル情報検索フレームワークであるBioMedSearchについて述べる。
本手法は,文献検索,タンパク質データベース,Web検索アクセスを統合し,複雑なバイオメディカルクエリの正確かつ効率的な処理を支援する。
質問応答の精度を評価するために,3,000の質問からなる多レベルデータセットBioMedMCQを構築した。
- 参考スコア(独自算出の注目度): 8.505934574757587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Biomedical queries often rely on a deep understanding of specialized knowledge such as gene regulatory mechanisms and pathological processes of diseases. They require detailed analysis of complex physiological processes and effective integration of information from multiple data sources to support accurate retrieval and reasoning. Although large language models (LLMs) perform well in general reasoning tasks, their generated biomedical content often lacks scientific rigor due to the inability to access authoritative biomedical databases and frequently fabricates protein functions, interactions, and structural details that deviate from authentic information. Therefore, we present BioMedSearch, a multi-source biomedical information retrieval framework based on LLMs. The method integrates literature retrieval, protein database and web search access to support accurate and efficient handling of complex biomedical queries. Through sub-queries decomposition, keywords extraction, task graph construction, and multi-source information filtering, BioMedSearch generates high-quality question-answering results. To evaluate the accuracy of question answering, we constructed a multi-level dataset, BioMedMCQs, consisting of 3,000 questions. The dataset covers three levels of reasoning: mechanistic identification, non-adjacent semantic integration, and temporal causal reasoning, and is used to assess the performance of BioMedSearch and other methods on complex QA tasks. Experimental results demonstrate that BioMedSearch consistently improves accuracy over all baseline models across all levels. Specifically, at Level 1, the average accuracy increases from 59.1% to 91.9%; at Level 2, it rises from 47.0% to 81.0%; and at the most challenging Level 3, the average accuracy improves from 36.3% to 73.4%. The code and BioMedMCQs are available at: https://github.com/CyL-ucas/BioMed_Search
- Abstract(参考訳): バイオメディカルクエリは、しばしば遺伝子制御機構や疾患の病理過程などの専門知識の深い理解に依存している。
複雑な生理的プロセスの詳細な分析と、正確な検索と推論を支援するために複数のデータソースからの情報の効果的な統合が必要である。
大規模言語モデル(LLM)は、一般的な推論タスクにおいてよく機能するが、その生成したバイオメディカルコンテンツは、権威的なバイオメディカルデータベースにアクセスできず、しばしばタンパク質の機能、相互作用、真正情報から逸脱する構造的詳細を作成できないため、科学的な厳密さを欠くことが多い。
そこで本研究では,LLMをベースとしたマルチソースバイオメディカル情報検索フレームワークであるBioMedSearchを提案する。
本手法は,文献検索,タンパク質データベース,Web検索アクセスを統合し,複雑なバイオメディカルクエリの正確かつ効率的な処理を支援する。
サブクエリ分解、キーワード抽出、タスクグラフ構築、マルチソース情報フィルタリングを通じて、BioMedSearchは高品質な質問回答結果を生成する。
質問応答の精度を評価するために,3,000の質問からなる多レベルデータセットBioMedMCQを構築した。
このデータセットは、機械的識別、非隣接セマンティック統合、時間的因果推論という3つの推論レベルを含み、複雑なQAタスクにおけるBioMedSearchや他のメソッドのパフォーマンスを評価するために使用される。
実験結果から,BioMedSearchはすべてのレベルのベースラインモデルに対して一貫して精度を向上することが示された。
具体的には、レベル1では平均精度が59.1%から91.9%に上昇し、レベル2では47.0%から81.0%に上昇し、最も難しいレベル3では平均精度が36.3%から73.4%に向上する。
コードとBioMedMCQは、https://github.com/CyL-ucas/BioMed_Searchで入手できる。
関連論文リスト
- BioPIE: A Biomedical Protocol Information Extraction Dataset for High-Reasoning-Complexity Experiment Question Answer [11.648155648575795]
高情報密度(HID)とMulti-Step Reasoning(MSR)は、生体医学実験QAに固有の課題を提起する。
既存のバイオメディカルデータセットは、一般的なまたは粗い知識に焦点を当てている。
BioPIEデータセットは、実験的なエンティティ、アクション、関係のプロシージャ中心のKGを提供する。
論文 参考訳(メタデータ) (2026-01-08T02:44:37Z) - CaresAI at BioCreative IX Track 1 -- LLM for Biomedical QA [3.222047196930981]
大規模言語モデル(LLM)は、様々な領域にわたる正確な質問応答において、ますます明白になっている。
本稿では,BioCreative IX共有タスクのMedHopQAトラックへのアプローチについて述べる。
短い解答と長い解答を組み合わせた微調整、短い解答のみ、長い解答のみの3つの実験的な設定が検討されている。
論文 参考訳(メタデータ) (2025-08-31T11:40:02Z) - MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training [22.996230737442254]
バイオメディカルな大規模言語モデル(LLM)のためのコーパスヘッダーは、オープンソースの科学コーパスにおいて、不十分な量と品質のプレス課題に対処しようとしている。
本稿では, バイオメディカル領域におけるLLMトレーニングに適した, 科学的コーパス蒸留のための知識駆動型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T08:18:24Z) - MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation [0.0]
本稿では,ドメイン適応型バイオメディカル質問応答モデルであるMedBioLMを紹介する。
MedBioLMは、微調整および検索拡張生成(RAG)を統合することで、ドメイン固有の知識を動的に組み込む。
微調整はベンチマークデータセットの精度を大幅に向上する一方、RAGは事実整合性を高める。
論文 参考訳(メタデータ) (2025-02-05T08:58:35Z) - Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - Progress and Opportunities of Foundation Models in Bioinformatics [77.74411726471439]
基礎モデル(FM)は、特に深層学習の領域において、計算生物学の新しい時代に定着した。
我々の焦点は、特定の生物学的問題にFMを応用することであり、研究ニーズに適切なFMを選択するために研究コミュニティを指導することを目的としています。
データノイズ、モデル説明可能性、潜在的なバイアスなど、生物学においてFMが直面する課題と限界を分析します。
論文 参考訳(メタデータ) (2024-02-06T02:29:17Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。